转发:安娜档案馆收到有人送的754万本非小说类中文电子书,来自读秀,正在征求OCR识别

让不懂中文的外国人来整理中文电子书,要ocr,还要把数据和书对起来,整个检索系统可能得翻新,花一年不足为奇。一年未必做得完,

安娜现在是在拿这批书与想要数据的AI公司讨价还价。我给你一批书,你得把ocr后的数据给我。AI公司想要书做中文大数据,但是肯定不乐意给出自己处理过的数据。现在先不发布,假如想要的公司多,就可能谈出好条件。都发布了,可以自由下载,那就不必谈了。

我感觉这对安娜馆会是一个转捩点,对世界的电子书圈子也是大事啊。在一年后,想想看,中文电子书的数量赶上英文电子书了?中文圈子的人都冲到那里去检索中文资料了?