文本识别 OCR 引擎对比

合合通用文档的说明:

支持标准的金融报告、国家标准、论文、企业招投标文件、合同、文书、工程图纸等文档内容。

我没有这些个特殊文档,我只是用来OCR电子书的

那你就用文本识别的接口,这个最准确。

这个接口没有额度了,目前测不了

方便的话,把主楼的三个样本给谷歌的 AI 识别下,我对比下结果。

test.txt (6.4 KB)

1 个赞

更新了对比结果。三个样本对比下来还是不如合合,和有道差不多。生僻字识别明显更好了,但拼音识别出问题了。

确切说,是不如合合的通用文字识别,比合合的“通用”文档解析要强太多了。

p.s.

我也是最近意识到,合合的通用文档解析里的行识别模式比通用文字识别里的行识别模式差太多了。

我之前一直以为是同一个东西。

也凑凑热闹吧.
1,因为日常也常用ocr,但场景是将扫描的图像型pdf书籍搞一下ocr,为了2个目的,搞成双层pdf后,可以在注释时用文字高亮或下划线等注释工具.第二个目的,可以检索内容.之所以ocr后存为双层pdf,因为文字识别多少有些差错,只要绝大多数文字识别得准就可以.
2,我的这类ocr,就有三个特点,第一,pdf,第二,原文有版面,ocr后要确保版本不变.第三,识别率足够用就可以.不追求百分百准确.

所以,lz搞的图片格式,不是我的使用场景.页就不转pdf了,直接用afr15搞,支持图片,我看了效果,足够用了.
直接发3个截图,
afr15的校对是极其方便的,至今未见到比它更便利的工具.(只见过一个网站,可以上传中文古籍识别,提供了校对,是为了征集志愿者ocr汉语古籍,那个界面可能是唯一比afr更方便的)



上面的三个截图,方便复制出文本来吗?我对比下结果,晚上更新上去。

扫描全能王不就是合合旗下的品牌么。怎么不测扫描全能王?

样本一就是测的扫描全能王。合合除了贵,没有缺点。

怎么用啊,pdf不上传到储存桶不行吗?