文本识别 OCR 引擎对比

单开一贴,总结下常见 OCR 引擎的识别结果。

省流不看版:

通用字文档识别率: 合合 > 有道 = 谷歌 AI > 阿里 = 百度 > 火山
生僻字文档识别率: 合合 = 有道 > 火山 > 谷歌 AI > 阿里 = 百度

识别率最高:合合 0.050 元/页
性价比最高:有道 0.007 元/页

样本一:汉语成语源流大辞典

测试图片:1468_0.png.zip (3.2 MB)

PaddleOCR(开源): 生僻字、拼音无法识别,标点符号正确

  • 专(阃)久膺 // 错字:阔
  • 孙(膑)兵法 // 漏字
  • 五(一) // 漏字
  • 分卒守(徼) // 错字:激
  • 二(〇)八 // 错字:O
  • (缮)甲兵 // 漏字

EasyOCR(开源): 生僻字可以识别,拼音无法识别、标点符号错误很多

  • 袁(枚) // 漏字
  • 排(日)出署 // 错字:月
  • 奕(䜣) // 错字:诉
  • (汉)墓、(汉)书 、(汉)王、(汉)之粟、 (汉)齐盖庙碑 // 错字:汊
  • 汉(王) // 错字:壬

百度高精度: 生僻字可以识别,拼音漏了两处声调,标点符号正确

  • 奕(䜣) // 错字:诉
  • 孙(膑)兵法 // 漏字

夸克扫描王(阿里): 生僻字识别错误,拼音全对,标点符号正确

  • 专(阃)久膺 //错字:间
  • 奕(䜣) // 错字:诉

扫描全能王(合合): 生僻字可以识别,拼音全对,标点符号正确

  • 奕(䜣) // 错字:诉
  • 二(〇)八 // 错字:O

白描(有道): 生僻字可以识别,拼音全对,标点符号正确

  • (一) // 错字:-
  • 二(〇)八 // 错字:。

火山引擎: 生僻字可以识别,拼音漏了三处声调,标点符号正确

  • 分卒守(徼) // 错字:微
  • 二(〇)八 // 错字:0

谷歌 AI:生僻字识别错误,拼音全对,标点符号错两处

  • 大(孚)众望 // 漏字
  • 专(阃)久膺 // 漏字
  • (圣)明洞鉴 // 漏字
  • 九(一) // 错字:-

谷歌AI 8 月新模型:生僻字识别错误,拼音错三处,标点符号错两处

  • 专(阃)久膺 // 错字
  • 九(一) // 错字:-
  • 二(〇)八 // 错字:o
  • (一)7 // 错字:-

感谢 匿名1664 提供 EasyOCR 的识别结果。
感谢 将作大匠 提供夸克扫描王和扫描全能王的识别结果。
感谢 soso 提供白描的识别结果。
感谢 Chengzhir 提供谷歌 AI 的识别结果。
感谢 random 提供谷歌 AI 8 月新模型的识别结果。

样本二:中国古代史教程

主要任务是测试生僻字的识别。

测试图片:072.jpg.zip (484.3 KB)

合合: 错漏 0 个字,标点符号正确

有道: 错漏 0 个字,标点符号正确

火山引擎: 错漏 0 个字,标点符号正确

谷歌 AI 8月新模型: 2 个错字,标点符号正确

  • 铜(铙) // 错字:饶
  • (盉) // 错字:盃

百度高精度: 错漏 5 个字,标点符号正确

  • (甗) // 漏字
  • 铜(铙) // 错字:饶
  • (觯) // 错字:解
  • (卣) // 错字:卤
  • (觥) // 漏字

阿里高精度: 错漏 8 个字,标点符号正确

  • (鬲) // 漏字
  • 铜(铙) // 错字:饶
  • (觚) // 错字:缸
  • (觯) // 错字:鯽
  • (卣) // 错字:卤
  • (盉) // 漏字
  • (觥) // 漏字
  • (瓿) // 错字:部

上述引擎的识别结果:072.zip (499.6 KB)

样本三:留声机与清末民初的世俗文化

主要任务是测试完整单页的识别。

测试图片:085.jpg.zip (700.1 KB)

此次测试总计 860 个汉字,138 个符号。

合合: 汉字 0 个错误,符号 0 个错误
谷歌AI 8月新模型: 汉字 0 个错误,符号 0 个错误
百度高精度:汉字 0 个错误,符号 2 个错误

阿里高精度:汉字 1 个错误,符号 1 个错误

  • 年 // 幻觉:(全)年

有道:汉字 0 个错误,符号 3 个错误

  • ①②③ // 符号可以识别,出现 3 个错误

火山:汉字 4 个错误,符号 7 个错误

  • (阶)层 // 错字:防
  • (时)// 错字:日
  • (20) // 漏字
  • (段) // 错字:县没
  • ①②③ // 6 个符号都无法识别

上述引擎的识别结果:085.zip (708.5 KB)

欢迎补充其他软件的识别结果!

11 个赞

价格列表:

合合:0.050 元/页
百度:0.040 元/页(高精度)
迅飞:0.035 元/页
有道:0.007 元/页
火山:0.005 元/页

如果还有和有道、火山一样价位,并且文本识别质量一致的引擎,多个引擎互相校对,大批量转换 PDF 到文本将变得轻而易举!!!

个人推荐高质量识别接口排序:合合OCR、火山OCR、讯飞OCR、有道OCR、腾讯OCR、百度OCR、当然,由于各家的技术实现和训练数据集都不同,具体的识别效果还得看你的识别对象,比如:百度高精度支持识别偏僻字,合合和有道支持识别竖排文本等,且基本上这些接口都提供免费使用额度,你可以都开通后再逐个对比。

参考以上熊猫OCR作者的话吧,宁可多花钱用合合引擎,也别用差OCR浪费时间。我把市面上的所有商业OCR都用过一遍,本地离线的没法比的。

1 个赞

合合太贵了。做一本还行,多做几本就吃不消了。

火山好便宜!

测试图片最好分几类:

清晰度:

  1. 高清图片
  2. 模糊图片

语言:

  1. 纯中文
  2. 纯英文
  3. 中英混合

不同的图片,有时候不同的OCR服务处理能力很不一样

1 个赞

我主要看中文的 PDF 资料,所以测试的也是中文的文本识别效果。我之前做过类似的校对工具,论坛发过截图,但是当时文本识别率较低,没有继续做下去,现在感觉可以捡起来了。 :smile:

1 个赞

目前这样的测试量少、难度普通、缺乏多样性,导致最终的结果区分度不大,比如百度、夸克、合合、有道、火山的OCR能力真的高度近似吗?

我提供几个可供测试的样本,涵盖复杂格式、模糊、生僻字等情况,还可以考虑繁体竖排、中英文混合等。




再贴两张图,一个是繁体竖排,一个是中英文混杂。


谷歌.txt (13.7 KB)
百度高精度.txt (10.3 KB)

1 个赞

IMG_20240601_162044
白描ocr 沦陷了: 又也兀弋孑了元韦廿卅仄厄兮刘交
QQ 扫一扫ocr功能: 义乜兀-弋孑孓幺亓韦廿丐卅仄厄仃仉仂兮刈爻卞

它其实是《通用规范汉字表》里的二级字表( 二级字_百度百科 ),3000字,连这都搞不定,水平堪忧。

谢谢,Google连标点符号都懒得弄正确,跟claude ai模型一样,看来真的是对大陆市场弃疗了,百度高精度的OCR能力相对比较强大,我OCR、制作《中国古代史教程》TXT时见识过。

1 个赞

谷歌英文OCR比百度高精度强很多

只要原图字符的[大小]这一个参数,就能排除掉

  1. 【〇】识别为【。】
  2. 【一】识别为【-】

但这么简单的规则,它没有,我也加不上。它这算法那论文各种模型,但它就是不让我简单矫正某两个识别错的字(大量重复在原图中),只有买卡、买服务从头训练 :smiley:

1 个赞

《中国古代史教程》的测试,我晚点补上,其他的样本难度太高了,肉眼识别都很困难。

没必要自己训练,多接入几个文本识别的引擎,互相校对效果更好。

2 个赞

还有识典古籍ocr. 可以联系一下这位大佬,大批量能申请api。标点,拼音识别率好像没怎么训练,但汉字的识别率相当不错。

1 个赞

识典ocr完美识别出:乂乜兀弋孑孓幺亓韦廿丏卅仄厄仃仉仂兮刈爻卞