文本识别 OCR 引擎评测

单开一贴,总结下常见 OCR 引擎的识别结果。

2026 年 2 月 03 日 新增智谱 GLM-OCR 的测试结果
2026 年 1 月 29 日 新增百度 PaddleOCR-VL-1.5 的测试结果
2026 年 1 月 28 日 新增测试样本四 Kimi K2.5 和 DeepSeekOCR 2 的测试结果

最新的文档识别准确率:

合合 > Qwen3 VL 8B=PaddleOCR-VL-1.5=GLM-OCR > Kimi K2.5 > 谷歌 Gemini 3.0 Preview > 有道 > DeepSeekOCR > DeepSeekOCR 2

====

准确率最高:合合 0.050 元/页

样本四:春秋左传注

测试图片:

已校对的正确文本:

expected.txt (2.0 KB)

识别结果:

合合OCR:错 1 个字。

芳 → 𫇭

Qwen3 VL 8B:错 3 个字。

尪 → 尩,儵 → 鯈,鯈 → 儵

PaddleOCR-VL-1.5:错 3 个字。(百度新出的提升巨大,比谷歌的都强了

芴 → 𫇭,涎 → 尩,鯈 → 儵

GLM-OCR: 错 3 个字。(国内新出的怎么都这么顶

艿 → 𫇭,澹 → 澨,鯈 → 儵

Kimi K2.5:错 4 个字。

劳 → 𫇭,断 → 斮,儵 → 鯈,儻 → 儵

Gemini 3.0 Preview:错 5 个字。

苏 → 𫇭,黎 → 梨,尫 → 尩,断 → 斮,鲦 → 儵

有道 OCR:错 6 个字。

劳 → 𫇭, 滋 → 澨,尪 → 尩,断 → 斮,籩 → 鯈,籩 → 儵

PaddleOCR-VL: 错 6 个字。

劳 → 𫇭,滋 → 澨,尪 → 尩,断 → 斮,籩 → 鯈,籩 → 儵

DeepSeekOCR:错 8 个字。

苏 → 𫇭,濨 → 澨,濨 → 潘,瓴 → 尩,眇 → 眴,断 → 斮,儵 → 鯈,鯈 → 儵

DeepSeek OCR 2:错 14 个字。#192

苏 → 𫇭,廪 → 庸,廪 → 鹿,滋 → 澨,载 → 戢,佞 → 尩,区 → 陉,冒 → 霄,踦 → 眴, 斩 → 斮,日 → 曰,儋 → 鯈,儋 → 儵,侍 → 俦

PaddleOCR:错 10 个字。

芳 → 𫇭,噬 → 澨,惩 → 尩,逛 → 尩,盼 → 蚡,纷 → 蚡,缺 → 斮,豁 → 谿,惫 → 鯈,倾 → 鯈

上述引擎的识别结果在 #151、#152#192、#197、#208、#210楼。

欢迎补充其他软件的识别结果!

样本一:汉语成语源流大辞典

测试图片:1468_0.png.zip (3.2 MB)

PaddleOCR(开源): 生僻字、拼音无法识别,标点符号正确

  • 专(阃)久膺 // 错字:阔
  • 孙(膑)兵法 // 漏字
  • 五(一) // 漏字
  • 分卒守(徼) // 错字:激
  • 二(〇)八 // 错字:O
  • (缮)甲兵 // 漏字

EasyOCR(开源): 生僻字可以识别,拼音无法识别、标点符号错误很多

  • 袁(枚) // 漏字
  • 排(日)出署 // 错字:月
  • 奕(䜣) // 错字:诉
  • (汉)墓、(汉)书 、(汉)王、(汉)之粟、 (汉)齐盖庙碑 // 错字:汊
  • 汉(王) // 错字:壬

百度高精度: 生僻字可以识别,拼音漏了两处声调,标点符号正确

  • 奕(䜣) // 错字:诉
  • 孙(膑)兵法 // 漏字

夸克扫描王(阿里): 生僻字识别错误,拼音全对,标点符号正确

  • 专(阃)久膺 //错字:间
  • 奕(䜣) // 错字:诉

扫描全能王(合合): 生僻字可以识别,拼音全对,标点符号正确

  • 奕(䜣) // 错字:诉
  • 二(〇)八 // 错字:O

白描(有道): 生僻字可以识别,拼音全对,标点符号正确

  • (一) // 错字:-
  • 二(〇)八 // 错字:。

火山引擎: 生僻字可以识别,拼音漏了三处声调,标点符号正确

  • 分卒守(徼) // 错字:微
  • 二(〇)八 // 错字:0

谷歌 AI:生僻字识别错误,拼音全对,标点符号错两处

  • 大(孚)众望 // 漏字
  • 专(阃)久膺 // 漏字
  • (圣)明洞鉴 // 漏字
  • 九(一) // 错字:-

谷歌AI 8 月新模型:生僻字识别错误,拼音错三处,标点符号错两处

  • 专(阃)久膺 // 错字
  • 九(一) // 错字:-
  • 二(〇)八 // 错字:o
  • (一)7 // 错字:-

感谢 匿名1664 提供 EasyOCR 的识别结果。
感谢 将作大匠 提供夸克扫描王和扫描全能王的识别结果。
感谢 soso 提供白描的识别结果。
感谢 Chengzhir 提供谷歌 AI 的识别结果。
感谢 random 提供谷歌 AI 8 月新模型的识别结果。

样本二:中国古代史教程

主要任务是测试生僻字的识别。

测试图片:072.jpg.zip (484.3 KB)

合合: 错漏 0 个字,标点符号正确

有道: 错漏 0 个字,标点符号正确

火山引擎: 错漏 0 个字,标点符号正确

谷歌 AI 8月新模型: 2 个错字,标点符号正确

  • 铜(铙) // 错字:饶
  • (盉) // 错字:盃

百度高精度: 错漏 5 个字,标点符号正确

  • (甗) // 漏字
  • 铜(铙) // 错字:饶
  • (觯) // 错字:解
  • (卣) // 错字:卤
  • (觥) // 漏字

阿里高精度: 错漏 8 个字,标点符号正确

  • (鬲) // 漏字
  • 铜(铙) // 错字:饶
  • (觚) // 错字:缸
  • (觯) // 错字:鯽
  • (卣) // 错字:卤
  • (盉) // 漏字
  • (觥) // 漏字
  • (瓿) // 错字:部

上述引擎的识别结果:072.zip (499.6 KB)

样本三:留声机与清末民初的世俗文化

主要任务是测试完整单页的识别。

测试图片:085.jpg.zip (700.1 KB)

此次测试总计 860 个汉字,138 个符号。

合合: 汉字 0 个错误,符号 0 个错误
谷歌AI 8月新模型: 汉字 0 个错误,符号 0 个错误
百度高精度:汉字 0 个错误,符号 2 个错误

阿里高精度:汉字 1 个错误,符号 1 个错误

  • 年 // 幻觉:(全)年

有道:汉字 0 个错误,符号 3 个错误

  • ①②③ // 符号可以识别,出现 3 个错误

火山:汉字 4 个错误,符号 7 个错误

  • (阶)层 // 错字:防
  • (时)// 错字:日
  • (20) // 漏字
  • (段) // 错字:县没
  • ①②③ // 6 个符号都无法识别

上述引擎的识别结果:085.zip (708.5 KB)

16 个赞

价格列表:

合合:0.050 元/页
百度:0.040 元/页(高精度)
迅飞:0.035 元/页
有道:0.007 元/页
火山:0.005 元/页

如果还有和有道、火山一样价位,并且文本识别质量一致的引擎,多个引擎互相校对,大批量转换 PDF 到文本将变得轻而易举!!!

个人推荐高质量识别接口排序:合合OCR、火山OCR、讯飞OCR、有道OCR、腾讯OCR、百度OCR、当然,由于各家的技术实现和训练数据集都不同,具体的识别效果还得看你的识别对象,比如:百度高精度支持识别偏僻字,合合和有道支持识别竖排文本等,且基本上这些接口都提供免费使用额度,你可以都开通后再逐个对比。

参考以上熊猫OCR作者的话吧,宁可多花钱用合合引擎,也别用差OCR浪费时间。我把市面上的所有商业OCR都用过一遍,本地离线的没法比的。

1 个赞

合合太贵了。做一本还行,多做几本就吃不消了。

火山好便宜!

测试图片最好分几类:

清晰度:

  1. 高清图片
  2. 模糊图片

语言:

  1. 纯中文
  2. 纯英文
  3. 中英混合

不同的图片,有时候不同的OCR服务处理能力很不一样

1 个赞

我主要看中文的 PDF 资料,所以测试的也是中文的文本识别效果。我之前做过类似的校对工具,论坛发过截图,但是当时文本识别率较低,没有继续做下去,现在感觉可以捡起来了。 :smile:

1 个赞

目前这样的测试量少、难度普通、缺乏多样性,导致最终的结果区分度不大,比如百度、夸克、合合、有道、火山的OCR能力真的高度近似吗?

我提供几个可供测试的样本,涵盖复杂格式、模糊、生僻字等情况,还可以考虑繁体竖排、中英文混合等。




再贴两张图,一个是繁体竖排,一个是中英文混杂。


谷歌.txt (13.7 KB)
百度高精度.txt (10.3 KB)

1 个赞

IMG_20240601_162044
白描ocr 沦陷了: 又也兀弋孑了元韦廿卅仄厄兮刘交
QQ 扫一扫ocr功能: 义乜兀-弋孑孓幺亓韦廿丐卅仄厄仃仉仂兮刈爻卞

它其实是《通用规范汉字表》里的二级字表( 二级字_百度百科 ),3000字,连这都搞不定,水平堪忧。

谢谢,Google连标点符号都懒得弄正确,跟claude ai模型一样,看来真的是对大陆市场弃疗了,百度高精度的OCR能力相对比较强大,我OCR、制作《中国古代史教程》TXT时见识过。

1 个赞

谷歌英文OCR比百度高精度强很多

只要原图字符的[大小]这一个参数,就能排除掉

  1. 【〇】识别为【。】
  2. 【一】识别为【-】

但这么简单的规则,它没有,我也加不上。它这算法那论文各种模型,但它就是不让我简单矫正某两个识别错的字(大量重复在原图中),只有买卡、买服务从头训练 :smiley:

1 个赞

《中国古代史教程》的测试,我晚点补上,其他的样本难度太高了,肉眼识别都很困难。

没必要自己训练,多接入几个文本识别的引擎,互相校对效果更好。

2 个赞

还有识典古籍ocr. 可以联系一下这位大佬,大批量能申请api。标点,拼音识别率好像没怎么训练,但汉字的识别率相当不错。

1 个赞

识典ocr完美识别出:乂乜兀弋孑孓幺亓韦廿丏卅仄厄仃仉仂兮刈爻卞