文本识别 OCR 引擎对比

独一档,主营业务就是文本识别,我还测试了中英和中日,合合的识别率都是最好的,都是短文本就没发。

合合TextIn - 合合信息旗下OCR云服务产品

2 个赞

上来难度太高了吧,没有测试有很多生僻字的情况。

合合

あ·ける【開ける·空ける·明ける】〖他下一〗①[開]打开。

去掉隔离物、覆盖物等,使关闭的物件呈敞开状态。「扉

[幕·鍵··箱]を~/开门[幕·锁·箱]」「口を~·けて眠る/张

着嘴睡觉」表現「瓶のふたを開ける/瓶を開ける」のよう

に、物の部分と全体をそれぞれ目的語にとる言い方が

ある。

②[開·空]凿,挖。凿开洞等空间。「壁に穴を~/在墙壁

上打洞」

③[空]用尽,倒空,喝光。挪走东西使场所空开,或指空容

器内的东西。「家を~·けて遊び回る/吃喝玩乐荡尽了家

财」瓶を~/把瓶子倒空』「一晩で一升~/一晚上喝光了

一升酒

④[空]腾空,腾出,空出,留出。移走东西使某个场地可以

使用,腾出场地、时间等。「道を~/让出道路」「会議室を

~けておく/事先腾出会议室」午後は時間を~·けてお

</下午空出时间」

⑤[空]空职,虚位。使某个职位处于空缺的状态。「部長

の椅子を~·けて後任を待つ/部长一职虚位以待」

⑥[開]〔入り口の戸を開けて始めることから〕商店等开

始营业,营业,开门。「9時に店を~/9点开门』当店は店

1 个赞

白描app,あ·ける【開ける·空ける·明ける】【他下一】0[開]打开。
去掉隔离物、覆盖物等,使关闭的物件呈敞开状态。「扉[幕·鍵:·箱]を~/开门[袋·锁·箱]」「口を~·けて眠る/张脊嘴睡觉」表現「瓶のふたを開ける/瓶を開ける」のように、物の部分と全体をそれぞれ目的語にとる言い方がある。
@[開·空]黹,挖。黹开洞等空间。「壁に穴を~/在墙壁上:打洞」
③[空]用尽,倒空,喝光。挪走东西使场所空开、或指空容器内的东西。「家を~·けて遊び回る/吃喝玩乐荡尽了家财」「瓶を~/把瓶子倒空」「一晩で一升~/一晚上喝光了
一升洒」
0[空]腾空,腾出,空出,留出。移起东西使某个场地可以使用,腾出场地、时间等。「道を~/让出道路」「会議室を~·けておく/事先腾出会议室」「午後は時間を~·けてお
</下午空出时间」
⑥[空]空职、虚位。使某个职位处于空缺的状态。「部長の椅子を~・けて後任を待つ/部长一职虚位以待」
⑥[開]〔入り口の戸を開けて始めることから〕商店等开始营业,营业,开门。「9時に店を~/9点开门」「当店は店

白描app,
8e489d4e78ea53f792bd742b3d7524c088b96e98.txt (4.3 KB)
0ff7468509c1bab9efd66381198c71fb99255c8c.txt (1.8 KB)

文選箋證 卷二十
琴賦
嵇康
蒸靈液以播雲
注善曰:『說文曰:津,液也。』今皿部『盡,液也』〔一〕。自以津爲盡,而盡字廢矣。周禮大司徒釋文『津本作盡』,猶存古字,今亦誤爲。此注當引水部『液,盡也』,為『液』字作注,而傳寫者誤倒耳。鬱怒彪休
注善曰:『彪休,怒貌。』按:大雅蕩『女烋於中國』,毛傳:『烋,猶彭亨也。』『彪休』與『烋』音同。易大有釋文引干寶注:『彭亨,驕滿貌。』蓋怒滿謂之『彪休』,驕滿亦謂之『魚烋』。本書魏都賦『吞滅咆烋』,劉注:『咆烋,猶咆哮也。』常武『如虓虎』,釋文:『虓,虎怒貌。』『虓』與『哮』同,胡氏毛詩後箋曰:『彭亨者,烋之轉,以今語釋古語耳。』心慷慨以忘歸
注善曰:『爾雅曰:愷慷,樂也。』考異曰:『慷慨,當作愷慷,注引爾雅「慷」,即「康」字。翰注
卷二十
四九五

我觉得还过得去,排版顺序的正确性是顶级,但不少生僻字不行,盡→𧗁,今亦誤爲→今亦誤爲𥂵(其实这字字形也不对,全宋体暂无),烋→炰烋,魚烋→炰烋,如虓虎→闞如虓虎。很多引擎连引号和字符顺序都识别不好,没什么好比的。

比如夸克全部乱糟糟。其他常见引擎懒得举例,都不太行。

注善曰:“爾雅曰.‘慢慷,樂也。”考異曰‘“慷慨,當作愷慷,注引爾雅‘慷’,即‘康’字。翰注
“哮”同,胡氏毛詩後箋曰:“彭亨者,然之轉,以今語釋古語耳。”
魏都赋“吞滅咆烋”,劉注,“咆然,猶咆哮也。”常武“闞如摅虎”,釋文‘“撼,虎怒貌。“桃”與
体”音同。易大有釋文引干寶连,“彭亨,驕滿貌。”蓋怒滿謂之“彪休”,驕滿亦謂之“急然”。本書
注善曰.‘一彪体,怒貌。”按,‘大雅蕩“女急然於中國”,毛傳‘“急然,猶彭亨也。”“彪休”與“魚
文“津本作盡”,猶存古字,今亦誤爲逮。此注當引水部“液,盡也”,爲“液”字作注,而傳寫者誤倒耳。
四九五

卷二十
心慷慨以忘歸
蒸靈液以播雲
文選箋證
鬱怒彪休



卷二十

测试了一下中英混合的,合合OCR英文识别的稍微弱一些,可能因为图片比较模糊,把e识别成了c(相比百度、谷歌),然后偶尔会整个一行丢失…(这个问题比较严重)

不过中文识别确实是强…

1 个赞

Google Document AI:又乜兀弋孑孓幺元韦廿丏卅仄厄仃仉仂兮刈爻卞
好像只错了乂亓

Google Document AI:错漏 2 个字,除逗号为半角、一堆莫名其妙的空格外标点符号正确

  • (盉) // 错字:委
  • (瓿) // 漏字

ocred2.pdf (510.8 KB)

  1. 辉煌 的 青铜文明
    最能代表商朝手工业生产水平的 , 是雄浑的青铜器和繁盛的青铜冶铸。
    中国 的青铜冶炼技术早在氏族时代就已 出现, 但一直到夏代, 它整体上
    的发展都还是比较落后的 。 在商代, 青铜铸造技术突飞猛进, 并创造了灿烂
    的青铜文化。
    商代青铜器的种类可分为礼器、 兵器、 生产工具及其他生活用具等, 其
    中礼器所占比例 最大, 种类也最多。 礼器又称彝器, 是古代贵族在举行祭
    祀、 燕享、 朝会及盟誓等各种礼仪活动中使用的器物。 礼仪在商代社会生活
    中 占有重要地位, 所以青铜被大量用于制作礼器。 总计商代的青铜礼器, 有
    用于烹煮的鼎 、 鬲 、 甗, 有用于盛储的簋、 豆 、 盘、 孟 , 有用于行乐的铜铙 , 但最
    多的是酒器, 有爵 、 觚、 觯 、 斝、 角 、 尊、 卣 、 委、 觥、、罍、 壶等, 反映饮酒与礼

云聪古籍数字化平台:5. 辉煌的青铜文明
最能代表商朝手工业生产水平的,是雄浑的青铜器和繁盛的青铜冶铸。
中国的青铜冶炼技术早在氏族时代就已出现,但一直到夏代,它整体上
的发展都还是比较落后的。在商代,青铜铸造技术突飞猛进,并创造了灿烂
的青铜文化。
商代青铜器的种类可分为礼器、兵器、生产工具及其他生活用具等,其
中礼器所占比例最大,种类也最多。礼器又称彝器,是古代贵族在举行祭
祀、燕享、朝会及盟誓等各种礼仪活动中使用的器物。礼仪在商代社会生活
中占有重要地位,所以青铜被大量用于制作礼器。总计商代的青铜礼器,有
用于烹煮的鼎、鬲、甗,有用于盛储的簋、豆、盘、盂,有用于行乐的铜铙,但最
多的是酒器,有爵、觚、觯、斝、角、尊、卣、盉、觥、瓿、罍、壶等,反映饮酒与礼

文選箋證卷二十
琴賦
蒸靈液以播雲
嵇康
注善曰:説文曰:津,液也』今皿部盡,液也」二。自以津爲盡,而䀆字廢矣。周禮大司徒釋
文津本作䀆,猶存古字,今亦誤爲濜。此注當引水部液,䀆也』,爲液字作注,而傳寫者誤倒耳
鬱怒彪休
注善曰:『彪休,怒貌。』按大雅蕩女炰烋於中國,毛傳:『炰烋,猶彭亨也。』彪休』與炰
烋音同。易大有釋文引干寶注:『彭亨,驕滿貌。蓋怒滿謂之彪休,驕滿亦謂之炰烋』。本書
魏都賦『吞滅咆烋』,劉注:『咆烋,猶咆哮也。』常武闞如虓虎』,釋文:『虓,虎怒貌。虓』與
『哮』同,胡氏毛詩後箋曰:『彭亨者,炰烋之轉,以今語釋古語耳。
心慷慨以忘歸
注善曰:『爾雅曰:愷慷,樂也。』考異曰:『慷慨,當作愷慷,注引爾雅『慷一,即『康』字。翰注
卷二十
四九五

在 Anna’s 看到有引用这篇数据。

更新一下最新比较(2024年9月30日):

谷歌的DocumentAI今年八月份更新了一个OCR处理器版本后,中文识别准确率提升了不少,可以媲美合合了,有些场景甚至完全超越了合合OCR。英文识别更是超越国内所有OCR服务!

谷歌新的OCR处理器版本:
image


Google DocumentAI 我愿称之为地球最强OCR :grinning:
而且价格实惠,仅为国内OCR服务价格的10%
简直良心。

1 个赞

分别测试下样本一、二、三,贴下文本的识别结果,我对比下更新上去。

谷歌OCR:

trachoma n. 砂眼 2.5
banana n. 香蕉 2.4
marijuana n. 大麻 3.15
stamina n.精力(尤指持久性的) 2.8
grandpa n. [colloq.] (=grandfather)
(外)祖父 3.9
camera n. 照相机 1.1
opera n. 歌剧 2.13

合合OCR:

tracho ma n.砂 眼 2.5
bana na n.香 蕉 2.4
marijua na n.大 麻 3.15
stami na n.精 力(尤指持
grand pa n. [ colloq.]
( 外)祖父 
came ra n.照 相机 1.
ope ra
n.歌 剧 2.13

你再测试下主楼提供的三个样本,不知道你怎么测试的,和我这边的合合的识别结果不一样,合合只错误了一个句号。

trachoma
n.砂眼 2.5
banana
n.香蕉 2.4
marijuana
n。大麻 3.15
stamina
n.精力(尤指持久性的)2.8
grandpa
n.[colloq.]
(=grandfather)
(外)祖父 3.9
camera
n.照相机 1.1
opera
n.歌剧 2.13

用的哪个接口?我用的合合的“通用文档解析”。
“通用文字识别”接口我没有额度了,没测这个

直接用文本识别的接口,合合的文档识别需要先解析文档布局,你这个截图不属于通用文档的范围了。

另外上面的图属于截取的一小部分,这样可能影响测试结果。
这是完整的:

test.pdf (27.8 KB)

这个不属于通用文档,不能用那个接口。

我可以用啊,通用文档接口支持PDF解析