【工具资源】合合TextIn文档解析工具内测,免费OCR文本识别引擎+PDF解析,欢迎加入

测试样本 5

比较简单的法文识别质量还行,文本读取顺序有误,不过调用api的话,可以设法补救。更复杂的法汉混合文本,比如法汉词典,有法文、音标、汉语解释,错误比较多,在此就不举例了。

识别结果:

accommodant,e adj.
accompagner v. t.
accomplir v.t.
accord n.m.
accorder v. t.
accoster v. t.
accouder(s) v.pr.
accourir 0.i。
accrocher v.t.
accrocher(s) v.pr.
accroissement n.m.
accroître v.t.
accroc n.m.
accueil n.m.
accueillir U.t.
accumuler v.t.
accusation n.f.
accusé,e adj.
accuser v.t.
accuser qqn. de v.t.
qqch.
acéré,e adj.
acharné,e adj.
acharner(s) v.pr.
achat n. m.
achat à crédit n.m.
acheminement n. m.
acheter v.t.
acheteur,se n.
achevé,e adj.

随和的,好商量的
陪同,伴随
完成,实现
和睦,协议,和音
给予
走近,靠岸
用肘依靠,用肘支撑
跑来,赶来
钩住,悬挂
紧紧抓住
增长
增长,扩大
裂缝,困难
迎接,招待
欢迎
堆积,积累
控诉,指控
被控告的
指责,控诉,指控
指控某人犯某罪,因某事
责备某人
锋利的,锐利的
激烈的,猛烈的,顽强的
猛追,发奋,热衷
购买
赊购,按揭
发送,发运
购买
购物者,采购员
完美的,十足的

000101.tif (73.5 KB)
南面而坐,故以北面指向人称臣。《魏书·贾诩传》注引《九州春秋》:“身建高人之功,北面以事庸主,将何以图安?”〔326〕

【北幽】 州名。北方幽州的代称。因幽州地处北方,故名。详见“幽州”。〔1105〕

【北原】 聚落名。故址在今陕西宝鸡东二十公里。[734〕

【北海】 ①郡国名。汉景帝中二年(前148)分齐郡置。郡治在营陵(今山东昌乐东南)。东汉改为国,移治剧县(今昌乐西)。三国魏移治平寿(今山东潍坊西南),辖地时有变化。大致相当今山东昌乐、昌邑、潍坊、潍县、平度、莱西、莱阳等地。甘露(256-260)年间,高贵乡公曹髦追赠王基父豹为北海太守,即此。〔16〕②海名。所指因时而异。初为北方偏远地区泛称。春秋、战国时多指今渤海;秦、汉后凡塞北大泽,往往被称为北海。今里海、巴尔喀什湖常称为北海,即指今苏联境内贝加尔湖。[863〕

【北塢】 军营名。东汉末,汉献帝始居南坞,李傕驻兵北坞,后强制献帝迁至北坞。故址在汉长安故城,即今陕西西安市西北。〔183〕

【北丁令】 国名。《三国志集解》卷三十:“北丁令,北,应作此;在乌孙西,应作在乌孙北,”意即丁令在乌孙北。故地在今苏联境内贝加尔湖周围一带。参见“丁令”。〔863]

【北平郡】 郡名。一名右北平郡。详见“右北平”。〔342〕

【北地王】 见“劉諶”。〔899〕

【北沃沮】 族名。一名置沟娄。为沃沮

之一支。因地处沃沮北部,又以其族人一度建立政权,故名。故地相当今吉林延吉一带。参见“沃沮”。〔847〕

【北谷口】 山谷名。当在东狼谷,今陕西留坝境内。〔1003〕

【北海王】 ①见“曹袞”。〔583〕②见“曹蕤”。〔590〕

【北宫玉】 东汉末凉州反将,举边章、韩遂为主,后败。〔45〕

【北部尉】 官名。汉制各县设尉。县尉主捕盗贼,主治安。东汉洛阳设东部、西部、南部、北部四尉。〔2〕

【北豐縣】 县名。三国魏置。故治同今辽宁复县。〔119〕

【北人無擇】 传说中人物。舜以天下让他,不受,自投深渊而死。〔68〕

【北中郎將】 官名。汉末建安二十三年(218)始置。曹魏此官秩比二千石,第四品,属光禄勋。晋因之。《魏书·荀彧传》注引《晋 阳秋》:“(荀)崧子羡,字令则,清和有才。尚公主,以历显位,年二十八为北中郎将。”〔320〕

【北地石城】 城邑名。详见“北地”、

“石城”。〔732〕

【北軍中候】 官名。东汉始置。西汉置中垒校尉掌北军营垒。东汉初废中垒校尉,置北军中候,掌监北军五营,秩六百石。曹魏以中领军代北军中候,掌禁兵。[210〕

【北海悼王】 见“曹蕤”。〔590〕

【北部都尉】 官名。秦代郡设郡尉,

掌佐郡守理军务。汉因之,景帝时更名都尉。东汉于蜀郡置北部都尉。〔171〕

【北黌(hóng洪)文學】 官名。古时

学校称黌。汉武帝时令天下郡国皆立学校,置文学掾、文学史,简称为文学。这里“北掾”即清河郡郡学,文学即该郡学文学掾的简称。〔819〕

【北烏伊别國】 国名。故地当在今苏联哈萨克加盟共和国一带。〔862〕

【占(zhān沾)】 卜问。视兆以知吉凶。《魏书·管辂传》注引《辂别传》:“及成人,果明《周易》、仰观、风角、占、相之道,无不精微。”〔812〕

【占(zhàn佔)户】 犹言占籍。自外地迁至新地,登记上报户口,成为有户籍的当地居民。《魏书·胡昭传》注引《魏略》:“(侯)武阳诣大阳占户”。〔363〕

【占候】 视天象变化以测吉凶。《蜀书·周群传》:“时州后部司马蜀郡张裕亦晓占候,而天才过群。”〔1020〕

【占夢】 圆梦。根据梦中所见附会预测人事的吉凶。《魏书·庞淯传》注引《典略》:“(张)奂讯占梦者”。〔548〕

【占數】 犹言占术。预测吉凶怪异。《吴书·刘惇传》:“以明天官达占数显于南土。每有水早寇贼,皆先时处期,无不中者。”〔1423〕

【占離卑國】 国名。辖地属今朝鲜半岛汉城以南地区。为“马韩”五十余属国之一。参见“馬韓”。〔849〕

【目下】 跟前,身旁。《蜀书·杨洪传》:

“(张)裔随从目下,效其器能”。〔1014〕

【目語】 以目示意。《吴书·周鲂传》:

发现问题:不能正确识别中文当中的破折号“——”,大概率会被OCR为连接符“-”。
优点:
1.能识别分栏。这是大部分识别软件无法做到。
2.能正确识别拼音。没见过哪个软件能够做到。

我注意到合合TextIn在官网其实部署了好多个不同的模型,选择不同的入口 OCR 结果不尽相同,这一点在测试时应该留心。

合合有专门的古籍识别引擎,在哪里?

谢谢告知。 :grinning:

试用了一下网站的免费古籍识别工具,确实给力,专用的小工具针对性果然更强。单看上传的《南明史》内文图片页识别结果,还算尽善尽美,文字右行文,上下排字,识别完没有窜乱,僻字难字的识别准确度也还可以。
以下是测试图片页:


以下是识别文本:
南明史卷三十八
一八七八
文,鄜州人。隆武元年十二月,斬安陸知縣張翽反正。與賀珍屯漢中。二年二月,與
劉體仁攻鄧州,復内鄉。終事不詳。
謙,字牧公,秀水人。尚書忠玄孫。父世芳,字蘭齋,任錦衣千户,保護善類。嘉興陷,
一門二十三人死。謙任指揮同知。良玉封侯,命齎印往,陞左都督,挂征南將軍印。妻隨
征。夢庚降,謙陷於兵,妻單騎突圍,救謙出,衆兵排矟攢向,妻力竭入水死。謙歸而家屬
已盡,後降清,為漳州知府。
又王世忠,海西女真人。本名揭力庫。先世部落分為南朝關,南朝關併於清。世忠八
九歲,家人負入朝,神宗留養宫中,衣冠舉止如中人。長以廣寧衛指揮加銜遊擊,王象乾薦
中軍都府僉書撫夷總兵。世忠,猛骨孛羅子,其妹歸插漢。世忠久在邊,識虜情偽,王之臣
調守宣雲,命終款事。款成,西鄙無警,後從孫承宗軍,晋左都督。崇禎時,坐墨敗,依良
玉。良玉娶其女爲夢庚婦。自成命招良玉,勞金一萬、銀三萬,不應。世忠善虜語,夢庚習
之,清兵入關,世忠北去,歷仕貴顯,其後夢庚之降,與有力焉。夢庚、猶龍、光祖、勇、國英、
進庫、勇事,見清史。
黄得功,字滸山,開原衛人。早孤,從母徐居。負奇氣,膽畧過人。年十二,母釀酒熟,

谢谢问题反馈和认可~!

谢谢反馈~我们的小语种识别还在不断训练优化中

不注册 有没有机会用一下?

可以到TextIn Tools站试试,在线即用 :smiley:不过相对额度较少哦,有相关需求的可以在https://cc.co/16YSIZ 注册使用

我的天, 这官方运营太给力了吧, 这都能打一波广子 (褒义)
闭门造车的独立开发者哭晕在厕所.

感谢各位的反馈和参与!我们本次内测(2w页额度)名额暂满~
每周7000页免费持续开放,有需要的朋友可以随时私信!

复杂版面似乎识别还是有问题,如:
000028.tif (63.3 KB)

{
            "type": "paragraph",
            "tags": [],
            "paragraph_id": 11,
            "page_id": 27,
            "content": 0,
            "position": [
                35,
                373,
                443,
                373,
                443,
                407,
                35,
                407
            ],
            "outline_level": -1,
            "text": "排列组合公              因此在等可能概型中,求随机事件的概率就可以转化为计算样本式介绍及其在Excel 中的实现                 点数的问题,在实际操作中常会涉及排列组合."
        },

二维码附近就没能识别出版面,导致文字顺序乱了

@BBOrin 问下这个额度是“通用文档解析”的额度吗?

可以申请“通用文字识别”的额度吗?

感觉“通用文字识别”产品用途要更广泛一些,如果可以申请“通用文字识别”的额度就好了

既然这个论坛主要讨论辞书那当然是从辞书入手,

  1. 某些字符无法识别例如▷☞⇒
  2. 单书名号〈〉被识别成<>
  3. 有一处【呴】被识别成【响】
  4. 圆圈○被识别成0
  5. 团字头被识别成图片;繁体字糰后面的⑨丢失


识别.txt (4.4 KB)