文本识别 OCR 引擎评测

看来中文还是合合比较强,不过合合偏科严重,日语竖排阅读顺序错误,阿拉伯语顺序错误,文字几乎全错。希腊语不是把拉丁字母插进去就是按公式识别了一堆latex标记,韩语和俄语还行,错的不是特别多。印地语错误很多。

1 Like

合合的中文识别结果基本不用修改。符号识别能力较差,音标基本不能用。

1 Like

我识别了无数书籍索引(标题+页码),合合每次都有一两个数字页码识别错误。所以我每次都是合合+谷歌OCR然后对比,每次都是合合页码出错,谷歌完全不出错。所以我识别这些书籍索引目录的时候,理论上可以抛弃合合了,但为了精确度还是继续合合和谷歌都用,然后对比。

总之一句话,谷歌的稳定性极高。合合识别率也挺高,但偶尔出非常低级的错误,而且不能忍(页码比标题重要多了,结果合合连数字都无法保证100%识别… 很无语)

1 Like

合合是一家上市公司,核心技术就是中文 OCR 和纸质文档扫描,ToB 客户主要是国内政府和企业。在常规、清晰的中文文档场景下识别表现稳定,但在模糊、反光或低清晰度等劣质扫描条件下准确率会下降,估计这些极端情况本来也不是它重点优化的应用场景。

在多语种识别上,谷歌优势更突出,有自建的全球最大的数字图书馆,跨语言 OCR 的效果在大规模语料的支撑下会被显著放大,相比之下中小公司根本无法获得同等级的多语言的数据规模与模型能力。(合合专注中文识别其实是对的

1 Like

很多大模型只是面向各类benchmarks训练,对于影响力大的benchmark的得分上去了,便下结论说“进步了、不日将实现AGI”……其实对于某些小众的benchmark反而得分下降:顶楼的测试集就是例子,Deepseek的新OCR模型对于此测试集反而得分下降。

LLM的通病就是这样,永远不知道什么地方可能会冒出幻觉。因此人机结合的思路不会过时,有时候对于high stake的场景还需要背靠背的方式(即不是拿到OCR结果再人工对其校改,而是人工录入文本后与OCR结果对比)

1 Like

PaddleOCR-VL-1.5:错 3 个字。(百度新出的提升巨大,比谷歌的都强了

芴 → 𫇭,涎 → 尩,鯈 → 儵

baidu.txt (2.5 KB)

看描述像是对稀有字符、古籍文本这些特殊场景做了重点训练。(以前不是不行,是没重视?

PaddleOCR-VL-1.5 further strengthens its capability in specialized scenarios and multilingual recognition. Recognition performance is improved for rare characters, ancient texts, multilingual tables, underlines, and checkboxes, and language coverage is extended to include China’s Tibetan script and Bengali.

不错,新模型也是每天有3000页免费额度,足够ocr词典了。
试了下阿拉伯语好像也是负优化了。

种12列下有法用要主的“1”。首之词单在现出能不它了站德宰个两(:)词名代数双作(1。“(1”的中)来起两(:)志标的格主数双作(2。了格及考生男个(3条“”阅参:释注]吧打们你:隔间的(:法用的调强下(4,者道信不[伊]m,们他告警有没是还,们他告警你成写隔间可处此:释注]道信会不们他,的[以可也写隔间不但。即T(5,嘴,舅,弟兄[A词名殊特个五作(5谈在人的尚高德品个一同在弟兄你见看亲父你[中[即“1”为志标格宾词名殊特个五这:释注]话为志标格属,“”的中[“”的中[“”中的加附称又,(:)的缘绝作(6人治统们我当(:)在处,觉发们我间然突,候时的情事己自们我理处在们或)道公不并事处们我,姓百头平是也,们我的中们他了加附为,“1”中[:释注](道公事处求要也们我到挂牵,起一它加,位地格属在处[。]的中词动与“”的数复中词动将,(:别区作(7侵有没人些这这:别区以加“”的母字身本:来开了分区“”中句下将就“1”了有中[犯[人犯侵在人个这[你:性(词名代数双为成使(8为,词名代接连为[:释注]的坦平是路道的俩词名代数双了成变则[加,志标数复的性阳[。“k”需所韵押符音长口开为作它加附,中词诗在(9中你赞称在们人到看我[原,加附而需所脚韵为“1”语叹惊被或([)语救呼被在加(10声长拉,音长发,中([)语叹哀被或([)
:母字个一第的中表母字语伯拉阿(الآلن)
分和类分、列排在用常,a或甲表代又,1字数基表代①同,字数基表代母字语伯拉阿:释注]上面方等明说点即母字组八列下住记。的则规不是,关无序顺后先母字
قُرْتُتُكُدُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُقُتُق

补充gemini3.0的

这是一张包含阿拉伯语和中文解释的词典或语法书籍页面。页面分为左右两栏,内容主要是关于阿拉伯字母“Alif”(الألف)的详细用法、Abjad数字系统以及相关语法规则。

以下是识别出的文字内容,按照您要求的顺序(先右栏,后左栏),并已修正了图片中因排版原因导致的中文语序倒置问题,使其符合阅读逻辑:

右栏

  1. 1 (الألف) : 阿拉伯语字母表中第一的字母:
  2. ① 代表基本数字1,又代表甲或a,常用来排列、分类和分
  3. 点说明等方面[注释:阿拉伯语字母代表基本数字,同
  4. 字母先后顺序无关,不是规则的。记住所列下八组字母即
  5. 可记住字母代表的全数部:أَبْجَدْ هَوَّزْ حُطِّي كَلَمَنْ سَعْفَصْ
  6. قَرَشَتْ ثَخَذْ ضَظَغْ , 即 ا=1, ب=2, ج=3, د=4, ه=5, و=
  7. 6, ز=7, ح=8, ط=9, ي=10, ك=20, ل=30, م=40,
  8. ن=50, س=60, ع=70, ف=80, ص=90, ق=100, ر=
  9. 200, ش=300, ت=400, ث=500, خ=600, ذ=700, ض
  10. =800, ظ=900, غ=1000. 上述前三组字母中的字母
  11. 按顺序分列代表甲乙丙丁戊己庚辛壬癸或 jihgfedcba
  12. (或大写DCBA…)。即 ↑ 代表 1 或甲或 a.
  13. ② أَشِعَّة الألف أو الأَشِعَّة الألِفِيَّة [物] α 射线。دقيقة الألف أو
  14. الدقيقة الألفِيَّة [物] α 粒子。 من الألف الى الياء 从第一字母到
  15. 最后一个字母,从头至尾,自始至终,彻头彻尾,完
  16. 整地,完全,全部: قَصَصْتُ عليها الأمرَ من ألفه الى يائه 我把事
  17. 情(来龙去脉)全给她说了。 قرأ الكتابَ من ألفه الى يائه 他
  18. 把这本书从头至尾看了一遍。 تساعدك في إنشاء المُدوَّنة من
  19. ألفها الى يائها 帮你写完整的博客。 أفضَلُ كتابٍ للطبخ
  20. من الألف الى الياء 最佳烹调大全书。 جديرٌ بالذكر أن معرضَ
  21. الكتاب من ألفه الى يائه تمّ تنظيمه من خلال الشباب أنفسهم
  22. 值得一提的是书展自始至终是通过些青年们他们自
  23. 己组织的。 يسبُّ السلطة من ألفها الى يائها أمام اندهاش
  24. المواطنين 在众国民震惊目光下,他把当局咒骂得一无
  25. 是处。 تطالب الجمهورُ بمشاهدة الفيلم من ألفه الى يائه قبل الحكم
  26. عليه 要求民众在判断该电影之前从头至尾把它看一
  27. 遍。 تـَحفظ القرآنَ عن ظهر قلبٍ من ألفه الى يائه 她能把《古
  28. 兰经》从头至尾背诵得滚瓜烂熟。 شَمَّة سَبعَةُ كتبٍ لتعليم
  29. الهَكَرِ الأَخلاقِيّ (أو النظيف) كاملا من الألف الى الياء 有七本
  30. 书可教你成为完全彻头彻尾的合乎道德的(或廉洁的)
  31. 黑客。 تُتقن السيّدَةُ لِي الإسبانيّة من ألفها الى يائها 李女士精通西
  32. 班牙语 [注释:此用法适用于各国科学]。 لا يعرفون الألف من
  33. الياء 他们目不识丁。
  34. ③ الأَلِفْبَاء • الأَلِفْبَائِيَّة : 字母表,字母系统:الـ الصوتية أو الـ
  35. الصوتيّ (أو اللفظيّ) (语语音字母表,音标。 الـ (أو الألفبائيّة)
  36. الصوتية الدولية أو الـ الصوتيّ (أو اللفظيّ) الدولىّ (国际音标(英
  37. 语缩写为 IPA)。 كُتب الـ المُعَدّة للصُّمّ والبُكْم 聋哑人(指
  38. 语)字母书籍。 الألف 共分两类:
  39. ① 不能标读音符的 الألف ,即不发音的 الألف , 即 “ا”,

左栏

  1. 它不能出现在单词之首。“1”的主要用法有下列 12 种:
    1. 作为双数代名词 (ضمير الاثنين): الزَّيْدَانِ قَامَا 两个宰德站了
  2. 起来 ( قاما 中的“1”)。
    1. 作双数主格的标志 (علامة الرفع للاثنين): نَجَحَ الطّالِبَانِ 两
  3. 个男考生及格了。
    1. 作分隔的 نون (نون التوكيد) 和强调 (نون النسوة) 调 (نون
  4. التوكيد) 的间隔: اِضْرِبَنَانِّ 你们打吧![注释:参阅“ النون ”条
  5. 下强调的 النون 用法]。
    1. 作两个 Hamza 间隔 (فاصلة بين الهمزتين): إِنَّ الذين كَفَرُوا
  6. سَواءٌ عليهم أأنذرتهم أم لم تنذرهم لا يؤمنون [伊]不信道者,
  7. 你警告他们,还是没有警告他们,这对他们是一样
  8. 的,他们不会信道 [注释:此处 1 أ أنذرتهم 间可写成
  9. آ أأنذرتهم . 即 ا 1 但不但间隔写也可以]。
    1. 作五个特殊名词 (أب , أخ , حَم , فو , ذو) 兄, 弟, 舅, 嘴,
  10. 有…的) 的格标志 (أبوك شاهد أخاك يَتحدث الى ذِي خُلقٍ : (的…
  11. كريم 你父亲看见你兄弟在同一个品德高尚的人谈
  12. 话 [注释:这五个特殊名词宾格标志为“1”,即 أخاك 中
  13. 的“1”,主格标志为“و”,即 أبوك 中的“و”,属格标志为
  14. “ى” , 即 ذي 中的 “ى”]。
    1. 绝缘的 الألف (الألف الكافَّة) , 又称附加的 الألف (الألف
  15. الزائدة) : فَبَيْنَا نَسُوسُ الناسَ والأمرُ أمْرُنَا اذا نحن فيهم سوقةٌ
  16. ليس نُنْصِفُ (أو اذا نحن فيهم سوقةٌ ننتصفُ) 当我们统治人
  17. 们在处理我们自己的情事的时候, 突然间我们发觉,
  18. 他们中间我们也平头百姓, 我们处事并不公道 (或
  19. 我们也要去求事公道) [注释: بينا 中“1”为 بينا 附加了
  20. “1”。动词句 نسوس 处在属格地位, بينا 加它一起, 牵挂到
  21. ننتصف ]。
    1. 作区别词 (تمييز), 将动词复数的“و” 与动词中的
  22. 本身字母的“و” 加以区别: الرجال لم يغزوا 这些人没侵
  23. 犯 [ يغزوا 中有了“1”就将下句中“غزو” 区分开了: الرجل
  24. يغزو 这个人侵犯]。
    1. 使成为双数代名词 (تثنية ضميرالاثنين): طريقكما ممهَّدٌ 你
  25. 俩的道路是平坦的 [注释: الكاف 为连接代名词, الميم 为
  26. 阳性的复数标志, 加了 الألف 则变成双数代名词
  27. “كما ”]。
    1. 在诗词中, 附加作开口长音拼韵所需: إني
  28. رأيتُ الناسَ يَحْمَدُونْكا [يحمدونكا 我看到人们在称赞你]
  29. “1” 为韵脚所需而附加, 原为 يحمدونك ]。
    1. 加在被呼救语 (المنادى المستغيث) 或被惊叹语
  30. (المتعجَّب منه) 或被哀叹语 (المندوب) 中, 发长音, 拉长声
1 Like

GLM-OCR: 错 3 个字。(国内新出的怎么都这么顶

艿 → 𫇭,澹 → 澨,鯈 → 儵

glm.txt (2.5 KB)

2 Likes

现在 AI 的进步太快,感觉之前的这些样本没什么区分度了,不知道是不是论坛里的讨论被喂给 AI 了,下次测试的时候考虑换一些样本。

1 Like

能识别到这个程度,可以认为中文OCR问题大概被解决了,剩下的是些长尾问题和专业疑难,对普通应用来说不是很重要。

它跟ai翻译问题差不多,虽然现在依然不完美,但也属于被解决了的问题。

我以前收集了 74 个不同类型的OCR测试样本,它们要检测的性能指标都稍微有些差异,内容、形式广泛,感兴趣的人可以用它们测试新模型。

OCR样本.part1.rar (20 MB)
OCR样本.part2.rar (10.5 MB)

4 Likes

GLM-OCR别看写的数据比PaddleOCRVL1.5好,但实际日文是完全弱于PaddleOCR的

左边是GLM-OCR,右边是PaddleOCR-VL,日文用字很多按中文识别的

左边改成了Gemini 2.5,右边还是PaddleOCR,基本差不多,Gemini略好于PaddleOCR

1 Like

提取自现代日语双解词典_本文_1-10.pdf (2.6 MB)
你再拿这个测试文档用paddleocr-vl、paddleocr-vl1.5、glm-ocr分别生成ocr识别文本后再行对照一番,你会发现在日汉混排的版面内容中,paddleocr-vl1.5相较于上一代在词典特殊编纂符号的识别率上远远占优,但在例句、释义对译中文却时不时出现紊乱,该用中文简体汉字却用日文汉字

1 Like

这种问题我认为很好修,不算大问题。


不太好搞吧。这是两个版本ocr文本的对勘,你仔细看,不仅存在着我刚才说到的问题,有些常见汉字vl1.5也识别错了。等于说克服一个问题时又引入一个问题

这张图里的错误,除了符号,只有捨眉弄眼这个不好处理吧。中日混用编码的问题,我是用的白名单解决的,白名单用的通用规范汉字的分级字表,不在白名单里的字符就是错字。这一步需要最后做,需要先提取出结构化的数据。

也是个法子。就是过程太过繁冗了,还不如寄希望于paddleocr官方再进一步做调优

1 Like