有人想制作汉语(包括汉英)ocr词典吗?

有人想制作汉语(包括汉英)ocr词典吗?

我最近在校对iii_1用百度高精度ocr做的《汉语成语源流大辞典》。

汉语成语源流大辞典校对

我感觉做汉语ocr文字版词典的时机已经成熟。用百度高精度ocr,汉语拼音几乎一个没错,除了一两个字头大写的汉语拼音。

仍然需要比较长时间的校对,但是中小型词典以一人之力是可以扫校完的,可以做到接近知网词典(许多应该也是ocr文字版)的水平。在某些方面胜于知网词典啊——我还改正原书错字和出校记呢。这是本坛的盛事。

所以有什么汉语词典适合这样做ocr呢?

我个人认为:

1.适合做内容质量高,参考价值大,图像非常清晰的中小型词典(词头在5万至8万之间)。

2.词头需要有括号【】。

假如有人有自己扫描的这类词典图像,可以提供,不妨说一声,看有没有人愿意去做百度高精度ocr,有没有人愿意校对。

我知道本坛的W兄用合合做《故训汇纂》,完全单干。

完全单干的另当别论,但是准备和人合作的不妨先提。各做各的,项目重复,没有效率啊。

今天才有人发私信给我,说用华为云做了《汉语成语源流大辞典》的ocr,没有耐心校对下去,问我想不想校对。我都已经把iii_1的百度高精度ocr版校对得差不多了。现在才说,太晚了吧?哪可能另起炉灶,从头来过?

我也不想加入pdf帮或epub派啊,要做就直接做mdx。

建议此帖只讨论汉语或汉英词典,英文、英汉词典可以另外开帖。因为感兴趣的人不一样。

希望想求人做mdx词典的人别在本帖下求人做词典。这不是一个词典wish list啊。假如没人想讨论,我是无所谓的,但是别歪楼再歪楼。

2 个赞

主要是现在没有免费的 OCR 服务了。百度开源的可识别字符是 6600 个,百度收费的生僻字识别,7月31号之前是 11000 个字符,8 月后高精度识别扩充到 20000 个字符,生僻字的识别率应该更好了。

我推荐一本,这是我所用过最好的中型汉语字典
(某些字的释义比《汉语大字典》更好)

「百度网盘」可以调用OCR功能,识别率还可以,大概是同一接口?

这种接口超过限额很容易封。

这是百度网盘VIP功能,我识别上千页的档案无有问题。只是不能调节参数。

你可以识别后发出来看看效果。这个接口和 iii_1 用的高精度可能不是同一个接口,可以先试试看。如果识别率够好,很多词典都可以做了。

常用字、拼音(音调)、标点基本不错,生僻字不行。
汉字古今义合解字典(疑难字部分).pdf (18.7 MB)
汉字古今义合解字典(疑难字部分)百度网盘OCR.docx (3.2 MB)

试了下百度网盘ocr,效果还可以,比一般的单机版ocr效果好,一键操作,比较省事。但文件稍大一点儿就会转换失败;图像不太清晰的pdf,一律转为图片版word。这东西如果再进化一下,应该是不错的选择。

错误有些多,估计不是高精度的接口。

百度网盘ocr,不要用pdf转word,效果差好多,要用图片去ocr。我用合合,开始为了省力,用pdf去识别,错误好多,浪费200多页。
百度网盘ocr,拼音无法正确识别,特别是音调。无法识别分栏,双栏要切图。无法识别竖排。

1 个赞

这是最大障碍。现在的OCR的确非常成熟了,价格是很大的阻碍因素。按理说AI训练好以后,随着边际成本的降低,价格应该越来越低才正常。

目前还没看到这个降价趋势。像谷歌OCR… 一些功能反而在涨价…

1 个赞

这本太模糊了,有高清版的话,很值得做

有兴趣卷起袖子大干的书友可以参考:

汉语词典摘览——据“辞书事业终身成就奖”
书名和作者姓名都是可以使用的检索关键词。