【工具资源】合合TextIn文档解析工具内测,免费OCR文本识别引擎+PDF解析,欢迎加入

如题。
合合TextIn(扫描全能王技术底座)在通用文档、生僻字、复杂版面识别方面有精准优秀的表现。
目前我们正在进行产品的进一步优化,也需要更多corner case。
本帖长期有效,欢迎私信我们,随时领取:
1、每个账户每周7000页解析额度;
2、加入开发者内测计划,每周2万页(价值1000元)免费额度。

官方下场 :wink:请随时滴滴,我们持续提供专人服务,免费额度如果cover不了使用量,也可谈优惠价格。

5 个赞

有地址吗,我看看

求试用链接 :grinning:

试用链接: TextIn - 机器人市场
免费额度领取可随时滴滴。

感谢感谢 :kissing_heart:

textin的pdf转换效果还不错,论文里复杂图表都能准确识别,还免费,夸夸。希望你们的免费额度能坚持下去

做梦吧,在线API把模型给你本地部署。商业公司都开源不赚钱吗?

可以本地计算出字库,把相同的字符像素合并上传,而不是所有像素上传。

你也真挺有创意的 :hushed:

试用过几次合合TextIn,发现识别正确率很高,速度也极快,但并不算完美,我注意到的若干问题有:

1、繁体竖排文本不辨阅读顺序,从左到右(顺便说一下,微信OCR也这么干),古文大多数情况下不是这么读的。比如下面的页面取自《四库全书》图像版,读取顺序错乱。(补充修正一下,稍后发现合合有专门的古籍识别引擎,能够用正确顺序阅读古文,可以考虑将此功能与通用引擎整合。

识别结果

全書

君子必愼其獨其以此夫

言之乎朱子嘗因學者問理與氣亦稱伊川此語說言又以爲才禀於氣豈其所謂分之殊者專指氣而命氣質之兩名粲然其如視諸掌矣但伊川既有此在一曰亦然在萬古亦然持此以論性自不須立天在一身則然在一家亦然在天下亦然在一歲則然天下之理無所不盡在天固然在人亦然在物亦然理一分殊四字本程子論西銘之言其言至簡而推之

十四

2、不能正确识别中文当中的破折号“——”,大概率会被OCR为连接符“-”。

识别结果

都是通过康德、黑格尔、席勒以及柯勒律治等人的著作从那个时期继承下来的。在那个时期以前,人们也曾为了各种不同的目的写过诗歌,演出过戏剧,创造过美术作品,而其他人也曾抱着不同的态度阅读过这些诗作,观看过这些戏剧,欣赏过这些美术作品。但是到了那个时期,这些具体的、随着历史不断演变的活动便被归纳为某种名之曰“审美”能力的特殊而又神秘的能力,耐且新的一代美学家还试图揭示其内在结构。这并不是说在此之前没有人提出过这些问题,而是说这些问题从现在开始获得了新的意义。认为存在着一种名叫?艺术的不变事物,存在着一种名叫“美”或“美感”的可以孤立存在的经验,这一看法在很大程度上是我们已经提到过的艺术脱离社会生活这一现象的产物。如果文学不再具有任何明确的功能-如果作家不再是受雇于宫廷、教会或贵族赞助人这样一种传统的形象-那么这倒可能会有利于文学。“创造性”写作的全部意义便在于它是一种高尚的无用之物,它便是“目的本身”,离踞于任何肮脏的社会目的之上。失去赞助人之后,作家在特的想象中找到了可以替代的东西。①事实上,《伊利亚特》对古代希腊人之为艺术,与一座大教堂对中世纪之为创造物,或安第“沃霍尔②的作品对于我们之为艺术,其意义是不大可能完全一样的,但是美学的作用却在于消称这种历史差异。艺术已从总是蕴含着艺术的物质活动、社会美系和思想意义中提取出来,然后被提升到一种孤立的偶像地位。。

十儿世纪末的美学理论核心是多少带有神秘色彩的象征理

①参见1、P:汤普金斯主编:《读者反应批评》一书中汤普金斯执笔的一文。《历史上的读者:不断变化的文学反应》,巴尔的摩和伦敦,1930。-原注

②:安第·沃霉尔(Andy Warbal,1930-),美国画家与电影制片人,一一泽注

3、某些特殊、生僻字符的识别能力也需要继续提高。下面的例子当中,可注意到对“〔”、“〕”识别没有一致性,经常错为“[”、“]”,或者“()”,“𫊸”也被识别为“娇”。

识别结果

【注释】[1〕“材”,指百谷草木。“任地”,因地制宜。 〔2〕“载时以象天”,《五帝德》作“履时以象天”。“载”,行,与“履”义同。“象”,法。此句谓行四时以象天。 〔3〕“依”,依据,依照。“鬼”,指祖宗的亡灵。“神”,指天地神灵。“义”,指必须遵照执行的准则。 〔4〕“气”,指“五行之气”,即仁、义、礼、智、信五种道德观念。[5〕“絜”,通“洁”。〔6〕“幽陵”,古地名,即古幽州,在今河北省北部及辽宁省西部一带。 〔7〕“交阯”,又作“交趾”,在今越南北部。战国时因海上交通已知其地,《墨子》、《韩非子》、《吕氏春秋》、《楚辞·大招》都提到过它,古人视为南方最远之地。 [8〕“流沙”,古地名。沙漠被风吹而流动,故以流沙指称沙漠地区。《汉书·地理志》张掖郡居延县东北居延泽,古称流沙。古人亦常以流沙称不熟悉的西北广大沙漠地区。 〔9〕“蟠木”,又作“扶木”,即“扶桑”,传说为神木,太阳出于其下,故扶桑又指日出之地。 〔10〕“动静之物”,动物指鸟兽之类,静物指草木之类。 〔11〕“砥”,通“祗”,恭敬。“属”,归属臣服。

帝颛顼生子曰穷蝉。颛顼崩,[1〕而玄嚣之孙高辛立,是为帝喾。(2)

【注释】[1〕“颛顼崩”,《皇览》称颛顼葬于濮阳顿丘城门外之广阳里,在今河南濮阳县境。〔2〕“喾”,音kù,帝喾之名初见于春秋时史料中。《礼记·祭法》云“殷人褅喾”,而《国语·鲁语》则云“商人褅舜”,三国韦昭认为“舜”当为“喾”字之误。殷墟甲骨卜辞载商人高祖夔,据王国维考定,“要”为“帝喾”之名,因形讹而成“夋”。因此由夔一神而分化成喾、夋二神,同见于《山海经》神话中,唯“夋”写作“帝俊”,为全书中最主要最显赫的一个上帝神。“帝喾”只偶尔提到两三次,而另外分化出“帝舜”一神。自晋郭璞至近代学者多认为“舜”自“夋”音变而出。是“喾”与“俊”、“舜”原由同一神“要”分化出来已可论定。可参阅《山海经》郭璞《注》、郝懿行《笺疏》、毕沅《新校正》、王国维《殷先

公先王考》、郭沫若《古代社会研究》、《卜辞通纂》、袁珂《山海经校注》。其后唯“喾”与“舜”进入历史文献中。喾保持了其东方鸟夷商远祖地位,大都说他与简狄因玄鸟生契。舜除《国语》(韦昭已改为喾)中仍保持其为商族始祖神地位外,其余文献皆与尧并举,成为“三王”前的二帝,失去商祖身份。后因与禹夏、后稷等全境诸族融合成华夏族,帝喾便被编排入黄帝世系中(见《大戴礼记·帝系篇》)为玄枵之孙,成为与颛顼并列两系中重要的一系,而且把他编排为尧、挚、契、稷之父,即尧族、商族、周族都成了他的子孙。因为此世系编成于周代,所以把周稷列为长子,商契列为次子,就把这原来对立的主要的东、西两族融合成亲兄弟了。可见帝喾在民族融合中被安排的地位相当重要。到《五帝德》提出第一种“五帝说”,他便为五帝之一;第二种、第三种两“五帝说”没有他;第四种“五帝说”又有他。至于他与高辛氏的关系,正如颛顼和高阳氏的关系一样,也是到《五帝德》、《帝系》中才合而为一的。以后遂成了历史的定说。

帝喾高辛者,黄帝之曾孙也。高辛父曰娇极,[1]娇极父曰玄嚣,玄嚣父曰黄帝。自玄嚣与娇极皆不得在位,至高辛即帝位。高辛于颛顼为族子。[2〕

【注释】[1〕“娇”,音jiǎo。 〔2〕“子”,本篇所谓“子”多不能以儿子之“子”看待。上古世系全靠口耳相传,年久易乱,少有完整系列者,故每数世相接即越数百年。本篇所称“子”,当看作某部族的支族或后裔。

高辛生而神灵,(1)自言其名。[2]普施利物,不于其身。聪以知远,明以察微。顺天之义,知民之急。[3〕仁而威,惠而信,修身而天下服。[4〕取地之财而节用之,[5]抚教万民而利诲

因为我用得不算多,暂时反馈以上几个问题,以后有机会再补充。合合OCR算是目前顶级的中文通用识别引擎,大多数相对简单的OCR场景几乎可以完美应对,是有力的生产力工具,希望可以再接再厉,继续提高。

1 个赞

这个滴滴是去哪滴,私信吗?有没有人领取到的?

加入这个开发者内测计划有什么要求吗?曾经测试过 OCR 引擎,可以加入吗?

这个免费额度很大,建议有扫书需要的不要错过。 :heart_eyes:

2 个赞

补充一个特殊字符的例证,像这种带圈的阿拉伯数字,其实挺常见,超过10一般OCR工具都要挣扎了。

或以封2,或不免于洴澼绕,则所用之异也。今子有五石之瓠,何不虑以为大樽而浮乎江湖②,而忧其瓠落无所容?则夫子犹有蓬之心也夫2!”

【注释】

①惠子,宋人惠施,曾任梁惠王相,是先秦名家学派的代表人物。详见《天下》篇。本书写他与庄子辩论不少,其中部分可能属于寓言。 ②魏王,姓魏名莹,因魏国建都大梁,所以又称梁惠王。贻(yí移),赠。大瓠(hù 户),大葫芦。种,种子。 ③成,结成葫芦。实五石,装满能有五石的容量。 ④坚,硬度。⑤瓠,假借为廓。廓落,很大的样子。无所容,无所可容,没有什么东西好装。⑥呺(xiāo 逍)然,空虚巨大的样子。 ⑦为,因为。掊(pǒu剖上声),击破。⑧拙,不善。 ⑨不龟手,使手不被冻裂。龟,通皲(jūn军),皮肤因寒冷或干燥而破裂。 ⑩洴澼(píng pì平辟),漂洗。絖(kuàng况),通纩,绵絮。 11方,指不龟手的药方。金,古代货币单位,一金就是一方寸一斤重的铜。 ⑫聚族谋,召集全家族的人来商量。 ⑬鬻(yù育)技,出卖技术。 ⑭与之,指卖给他。 ⑮说(shuì税),用语言劝说别人,使他信服自己。吴,周代诸侯国,据有今江苏大部分和安徽、浙江等省一部分,国都原在梅里(今无锡市),后迁姑苏(今苏州市)。 ⑯越,周代诸侯国,原据今浙江钱塘江流域一带,春秋末年灭吴,于是占有吴国全部领土,并发展到山东东南部。国都会稽(今绍兴市)。难,难事,指军事行动。 17使之将(jiàng酱),派他率领军队。 ⑱大败越人,因吴军有使手脚不冻裂的药,故此得胜。 ⑲裂地,割出一块地方。封之,封赐给他。⑳0一也,是一样的。 21或,有人。以封,因此而得到封地。 22虑,考虑。樽,葫芦形似酒樽,缚在腰上游泳,如今之救生圈。船家小孩还多有这种用法。

23蓬之心,如有蓬草蔽塞的心,犹说“茅塞”。

惠子谓庄子曰:“吾有大树,人谓之樗①。其大本擁肿而不中绳墨②,其小枝卷曲而不中规矩。立之涂③,匠者不顾④。今子之言,大而无用,众所同去也⑤。”庄子曰:“子独不见狸狌乎⑥?卑身而伏⑦,以候敖者;东西跳梁⑧,不避高下;中于机辟⑨,死于罔罟⑩。今夫斄

2 个赞

unicode 支持到50,还有非 unicode 的特殊字符,置信度低且重复出现的、应该提示生成私有字符集。

①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳
㉑ ㉒ ㉓ ㉔ ㉕ ㉖ ㉗ ㉘ ㉙ ㉚ ㉛ ㉜ ㉝ ㉞ ㉟
㊱ ㊲ ㊳ ㊴ ㊵ ㊶ ㊷ ㊸ ㊹ ㊺ ㊻ ㊼ ㊽ ㊾ ㊿

收到,已私信 :smiley:

这个带圈的阿拉伯数字,印刷品挺多的。别的 OCR 引擎很难识别到 10 。合合能识别到 20,最好要识别到 50。

非常感谢宝贵意见!!

哇哦,官方大气!我申请加入开发者内测计划,目前在用合合OCR测试一些古文识别,还有在测试一些很早期的英汉双解繁体词典的识别,因为年代久远不是很清晰,发现非常考验OCR的功力,想试试合合。之前已经对合合做了一些测试了,希望有机会加入开发者内测计划,进行更多测试。需要什么反馈的话,告诉我下。谢谢啦!

可以的!唯一要求是让我们多多了解您的使用场景和反馈 :smiley:已私

收到 :wink:私信啦

1 个赞

我前几天测试了这个带圈的阿拉伯数字,合合表现最佳,其次谷歌,再次百度