离线 OCR 小工具 2024.01.06

可以支持转成PDF,或者HTML吗?

Abbyy 16 可以识别下划线和波浪线吗?我用的12版,好像不行。

微信OCR(高精度)是可以妥善处理下划线、波浪线的,排除其干扰,只识别文字;而ABBYY的应对方式比较混合,有时是排除其干扰识别,有时是把它作为有意义的标记识别在生成的文本里,有时则完全识别错误(把文字和下划线加在一起当作另一个汉字)。

这应该不是什么很有挑战性的问题,一个足够大足够好的模型应该可以解决,但是没有大的厂商真的在上面用心,因为有这种需求的市场比较狭小。

能在线尽量在线,用夸克(T0,软件)和合合(T1,API)就行了,别的都差太多了。本地就ABBYY。
看看夸克效果。
还原Word_中国古代史教程.docx (6.4 KB)
还原Word_盟而卒立子兰为太子晋兵乃罢去.docx (7.6 KB)

1 个赞

微信OCR都可以直接调用了,Github有人做了。

做过一些测试,高精度识别是要调用服务器api的,如果用本机模型,生僻字很多都是识别错误。

如果需要连线腾讯服务器处理,你是没法滥用去大量识别图书的,迟早把你封了,有时或许有些内容你也不想送到服务器那里去。

《中国古代史教程》这套书不错,应该算是目前为止最理想的中国通史类著作,篇幅适中,内容丰富,立场平和公允,写作方式也符合传统习惯,我用Abbyy OCR过一次,但正确率不高,它很值得做成文本化图书广泛流布传播。

可在此浏览下载pdf文件:
https://annas-archive.org/search?q=中国古代史教程