文本识别 OCR 引擎对比

last_idol · 2024 年6 月 1 日 05:41

单开一贴，总结下常见 OCR 引擎的识别结果。

省流不看版：

通用字文档识别率：合合 > 有道 = 谷歌 AI > 阿里 = 百度 > 火山
生僻字文档识别率：合合 = 有道 > 火山 > 谷歌 AI > 阿里 = 百度

识别率最高：合合 0.050 元/页
性价比最高：有道 0.007 元/页

样本一：汉语成语源流大辞典

测试图片：1468_0.png.zip (3.2 MB)

PaddleOCR(开源)：生僻字、拼音无法识别，标点符号正确

专(阃)久膺 // 错字：阔
孙(膑)兵法 // 漏字
五(一) // 漏字
分卒守(徼) // 错字：激
二(〇)八 // 错字：O
(缮)甲兵 // 漏字

EasyOCR(开源)：生僻字可以识别，拼音无法识别、标点符号错误很多

袁(枚) // 漏字
排(日)出署 // 错字：月
奕(䜣) // 错字：诉
(汉)墓、(汉)书、(汉)王、(汉)之粟、 (汉)齐盖庙碑 // 错字：汊
汉(王) // 错字：壬

百度高精度：生僻字可以识别，拼音漏了两处声调，标点符号正确

奕(䜣) // 错字：诉
孙(膑)兵法 // 漏字

夸克扫描王(阿里)：生僻字识别错误，拼音全对，标点符号正确

专(阃)久膺 //错字：间
奕(䜣) // 错字：诉

扫描全能王(合合)：生僻字可以识别，拼音全对，标点符号正确

奕(䜣) // 错字：诉
二(〇)八 // 错字：O

白描(有道)：生僻字可以识别，拼音全对，标点符号正确

(一) // 错字：-
二(〇)八 // 错字：。

火山引擎：生僻字可以识别，拼音漏了三处声调，标点符号正确

分卒守(徼) // 错字：微
二(〇)八 // 错字：0

谷歌 AI：生僻字识别错误，拼音全对，标点符号错两处

大(孚)众望 // 漏字
专(阃)久膺 // 漏字
(圣)明洞鉴 // 漏字
九(一) // 错字：-

谷歌AI 8 月新模型：生僻字识别错误，拼音错三处，标点符号错两处

专(阃)久膺 // 错字
九(一) // 错字：-
二(〇)八 // 错字：o
(一)7 // 错字：-

感谢匿名1664 提供 EasyOCR 的识别结果。
感谢将作大匠提供夸克扫描王和扫描全能王的识别结果。
感谢 soso 提供白描的识别结果。
感谢 Chengzhir 提供谷歌 AI 的识别结果。
感谢 random 提供谷歌 AI 8 月新模型的识别结果。

样本二：中国古代史教程

主要任务是测试生僻字的识别。

测试图片：072.jpg.zip (484.3 KB)

合合：错漏 0 个字，标点符号正确

有道：错漏 0 个字，标点符号正确

火山引擎：错漏 0 个字，标点符号正确

谷歌 AI 8月新模型: 2 个错字，标点符号正确

铜(铙) // 错字：饶
(盉) // 错字：盃

百度高精度：错漏 5 个字，标点符号正确

(甗) // 漏字
铜(铙) // 错字：饶
(觯) // 错字：解
(卣) // 错字：卤
(觥) // 漏字

阿里高精度：错漏 8 个字，标点符号正确

(鬲) // 漏字
铜(铙) // 错字：饶
(觚) // 错字：缸
(觯) // 错字：鯽
(卣) // 错字：卤
(盉) // 漏字
(觥) // 漏字
(瓿) // 错字：部

上述引擎的识别结果：072.zip (499.6 KB)

样本三：留声机与清末民初的世俗文化

主要任务是测试完整单页的识别。

测试图片：085.jpg.zip (700.1 KB)

此次测试总计 860 个汉字，138 个符号。

合合：汉字 0 个错误，符号 0 个错误
谷歌AI 8月新模型：汉字 0 个错误，符号 0 个错误
百度高精度：汉字 0 个错误，符号 2 个错误

阿里高精度：汉字 1 个错误，符号 1 个错误

年 // 幻觉：（全）年

有道：汉字 0 个错误，符号 3 个错误

①②③ // 符号可以识别，出现 3 个错误

火山：汉字 4 个错误，符号 7 个错误

（阶）层 // 错字：防
（时）// 错字：日
（20） // 漏字
（段） // 错字：县没
①②③ // 6 个符号都无法识别

上述引擎的识别结果：085.zip (708.5 KB)

欢迎补充其他软件的识别结果！

last_idol · 2024 年6 月 1 日 05:48

价格列表：

合合：0.050 元/页
百度：0.040 元/页（高精度）
迅飞：0.035 元/页
有道：0.007 元/页
火山：0.005 元/页

last_idol · 2024 年6 月 1 日 05:53

如果还有和有道、火山一样价位，并且文本识别质量一致的引擎，多个引擎互相校对，大批量转换 PDF 到文本将变得轻而易举！！！

amob · 2024 年6 月 1 日 05:56

个人推荐高质量识别接口排序：合合OCR、火山OCR、讯飞OCR、有道OCR、腾讯OCR、百度OCR、当然，由于各家的技术实现和训练数据集都不同，具体的识别效果还得看你的识别对象，比如：百度高精度支持识别偏僻字，合合和有道支持识别竖排文本等，且基本上这些接口都提供免费使用额度，你可以都开通后再逐个对比。

参考以上熊猫OCR作者的话吧，宁可多花钱用合合引擎，也别用差OCR浪费时间。我把市面上的所有商业OCR都用过一遍，本地离线的没法比的。

last_idol · 2024 年6 月 1 日 05:57

合合太贵了。做一本还行，多做几本就吃不消了。

last_idol · 2024 年6 月 1 日 06:13

火山好便宜！

iii_1 · 2024 年6 月 1 日 07:05

测试图片最好分几类：

清晰度：

高清图片
模糊图片

语言：

纯中文
纯英文
中英混合

不同的图片，有时候不同的OCR服务处理能力很不一样

last_idol · 2024 年6 月 1 日 07:38

我主要看中文的 PDF 资料，所以测试的也是中文的文本识别效果。我之前做过类似的校对工具，论坛发过截图，但是当时文本识别率较低，没有继续做下去，现在感觉可以捡起来了。

mixivivo · 2024 年6 月 1 日 08:09

目前这样的测试量少、难度普通、缺乏多样性，导致最终的结果区分度不大，比如百度、夸克、合合、有道、火山的OCR能力真的高度近似吗？

我提供几个可供测试的样本，涵盖复杂格式、模糊、生僻字等情况，还可以考虑繁体竖排、中英文混合等。

mixivivo · 2024 年6 月 1 日 08:24

再贴两张图，一个是繁体竖排，一个是中英文混杂。

iii_1 · 2024 年6 月 1 日 08:26

谷歌.txt (13.7 KB)
百度高精度.txt (10.3 KB)

soso · 2024 年6 月 1 日 08:37

白描ocr 沦陷了: 又也兀弋孑了元韦廿卅仄厄兮刘交
QQ 扫一扫ocr功能: 义乜兀-弋孑孓幺亓韦廿丐卅仄厄仃仉仂兮刈爻卞

mixivivo · 2024 年6 月 1 日 08:49

它其实是《通用规范汉字表》里的二级字表（二级字_百度百科），3000字，连这都搞不定，水平堪忧。

mixivivo · 2024 年6 月 1 日 08:54

谢谢，Google连标点符号都懒得弄正确，跟claude ai模型一样，看来真的是对大陆市场弃疗了，百度高精度的OCR能力相对比较强大，我OCR、制作《中国古代史教程》TXT时见识过。

iii_1 · 2024 年6 月 1 日 09:01

谷歌英文OCR比百度高精度强很多

匿名1674 · 2024 年6 月 1 日 10:28

只要原图字符的[大小]这一个参数，就能排除掉

【〇】识别为【。】
【一】识别为【-】

但这么简单的规则，它没有，我也加不上。它这算法那论文各种模型，但它就是不让我简单矫正某两个识别错的字（大量重复在原图中），只有买卡、买服务从头训练。

last_idol · 2024 年6 月 1 日 10:53

《中国古代史教程》的测试，我晚点补上，其他的样本难度太高了，肉眼识别都很困难。

last_idol · 2024 年6 月 1 日 10:55

没必要自己训练，多接入几个文本识别的引擎，互相校对效果更好。

匿名1605 · 2024 年6 月 1 日 11:57

还有识典古籍ocr. 可以联系一下这位大佬，大批量能申请api。标点，拼音识别率好像没怎么训练，但汉字的识别率相当不错。

soso · 2024 年6 月 1 日 12:12

识典ocr完美识别出:乂乜兀弋孑孓幺亓韦廿丏卅仄厄仃仉仂兮刈爻卞