文本识别 OCR 引擎对比

Ernie-4.5-vl-28b 中文OCR能力比较强,但在指令服从这方面表现就差劲一些,有时让它ocr,输出原文,却给你来一通图像内容的总结评论,最好 ai 社区能在它的基础上微调改进一下。

此前其他开源OCR模型我测试过很多,都吹得很牛,但就中文OCR来说,按照我的标准基本是不可用的,连一些通用但稍微生僻的字都不认识,识字量大概5000-8000之间吧。Ernie-4.5-vl-28b的具体识字能力不好确定,我粗略的感觉是可能达到10000-12000这个区间了,跟Gemini 2.5的中文识字水平有点近似,在一个梯队。

我再补充一个测试样例:

不可也贵妃自处子入宫上绝幸寵傾後宫上常與遊者禄山也禄山日與贵妃嬉遊帝從觀以為咲此得不謂之上慢乎贵妃慮其醜聲落民間乃以禄山為子一日禄山醉戲無禮尤甚贵妃怒罵曰小鬼方一奴耳聖上偶愛爾令得官出入禁掖獲私於吾尚敢爾也禄山曰臣雖出微賤惟帝王能興廢也他皆無畏焉臣萬里無家四海一身死婦地下臣且不顧叱贵妃復引手抓贵妃胷乳間贵妃泣曰吾私汝之過也罪在我而不在爾爾今不思報我尚以死協我時宫女王仙音傍立乃大言安禄山夷狄賤物受恩主上蒙愛贵妃乃敢悖慢如此我必奏帝禄山猶不止云奏帝我不過流徒極即刑誅贵妃未必無罪得與貴妃同受禍我所願也此所為魚目得伴明珠入水碔砆同白玉入火又何害焉會高力士賫福建緑荔枝上贵妃禄山乃忸怩引去力士乆在屏外躬聽且知所爭力士上傳帝旨跪進荔枝乃去贵妃使人從力士謝曰慎無言適來之事高曰帝非贵妃當受黜廢出居于外則主人不樂可知為我謝贵妃臣知此乆矣非今日也臣宫中老物也豈不知愛君父乎

這倒不礙事,主要你這段明顯看出點問題——舊版古籍識別時效果明顯不如新式古籍,簡繁混雜,個別字符也識別錯了。就不知道OCR文本量一多,會不會衍生出更多的問題 :sweat_smile:

简繁混杂这类问题可能是通病,不易解决,我不久前用 Gemini 2.5 pro 识别了一本繁体竖排的书,整体来说没啥大毛病,但同样存在少量混用简体字、异体字的问题,甚至在里面发现了日文字体。

這就是所謂的模型幻覺吧,老毛病了

阿里刚发布了视觉大模型Qwen3-VL-235B-A22B,中文 OCR 能力强了不少,我测了测,通常的生僻字也能识别了。

不过这些模型都比较重,用来OCR算浪费资源和算力,未来应该可见更多更小的模型具有类似的性能。

识别结果:

【銘文】

夫人姓李,諱桀蘭,冀州勃海郡條縣廣樂鄉新安里人也。漢膠西王太傅解之後。爰及魏氏,衣冠世襲。遠祖東夷,才華儁令,聲高晉室。高祖中庶,溫良約儉,名重燕邦。祖陳留,勳節清劭。父功曹,光毗允稱,累葉承徽,風流不隕矣。夫人幼而聰悟,長彌謙順,諸姑尚其恭和,伯姊服其孝敬。自來儀君子,四德淵茂,逮事太夫人,曲盡婦道。造次靡違,巔沛必是,妙善女工,兼閑碎務。太夫人衣食服玩,躬自嘗製,蒸礿祠奠,親潔俎豆。信不以貴敖為心,每以卑慎在志。是以太夫人慈遇備隆,流愛特厚,在宗必詠,在家必聞。故能六戚仰其徽猷,五宗範其成行,慶緒遐綿,誕育冢嗣。

太和廿年,武昌王以宗室親勳,賞遇隆重,鏤龜分虎,出牧齊藩。贊治所憑,維捍是寄,妙簡良佐,帝難其人。以公器局沉隱,識學詳明,除公為長史,帶東魏郡。郡去夫人桑梓經塗不過數百。河華之路匪遙,載馳之恩餘遠。正以禮奉異門,抑情從義,違親累稔,積思成痾。雖憂戀內侵,未敢形諸言色。太夫人愍其孝至,聽暫歸寧。依善無效,春秋廿有六,太和廿一年十一月廿日薨于新安里第。神龜元年歲次降婁十二月壬子朔九日庚申遷配於洛陽北芒山之陽樂氏之里。風山裂石,寒壟悲雲,白楊長吟,泉下無聞。悼明珠之碎朗,傷孤蘭之奄芬。乃作銘曰:

景山降靈,宗海騰精,誕茲懋族,世載休明。
太傅崇德,東夷樹聲,勳昭地緯,道穆乾經。
篤生淑媛,秉心塞違,恪懃泛愛,總孝兼慈。
閑詳外順,柔靜內怡,三從無爽,四德有歸。
富能廣貸,儉獨善身,恭和厲夕,肅敬犯晨。
行師六戒,藝範五姻,如萱秀夏,比蕙光春。
積慶虛設,與福安在,傾景莫留,徂川不待。
始露摧芳,未霜彫彩,歡促百年,悲長

最新版本跟其他几家比较如何

有点失落,其实之前qwen3-max预览版搭载的就是最强的vl模型了。但正式版和vl开源版出来之后,指令依循度、识别精度反而下降了,批量上传图片不乱序的特性也没有了

预览版可能测试的是全精度模型,而商用部署的则做了某种程度的量化,以节约算力,Gemini模型据说就有这种情况,但具体就不为外人所知了。

我不大明白你这种说法具体是什么意思,啥是“最小版本”?

1 个赞

最新版本,sorry,错别字了

就通用的OCR能力而言,我认为最强的还是Gemini 2.5 Pro,它可以识别上百种语言文字;具体到中文OCR,国内这些模型渐渐有赶上,且超过之势,尤其在生僻字识别上,毕竟国人更懂更关注中文。

我认为生僻字识别能力还是非常重要的,最大量的出版物图书这些版面通常不复杂,可以预处理,错了也能批量改,但如果一页有三五八个错别字,想纠正可要费老大劲了,且这些 LLM 并没有搭配像ABBYY那样的图文对照校对工具,最好能一次性把文字识别正确,格式版式之类都好说。

能否分享一下你的“文選箋證”这本书?排版精美。谢谢\(☆o☆)/

这不烂大街的书吗,zlibrary就有。

我不会在这个网站下载。谢谢你,给我的邮箱发一份文選箋證吧。

zhuang_0801@163.com

zhuang_0801@163.com