词典类图书PDF文档版面自动分析、加工的初步探索

PDF规范很乱,有不少奇葩的。
试一下这本的OCR?

楼主的工具感觉做切分的话肯定是够用的。不过最终还是要ocr得到整体文本内容的话,感觉比起预处理,后处理可以解决不少问题。比如标点和异体字问题我都遇到过,都是后处理解决的。不过我这个不是字典,没有那么多生僻字。解决正确率问题我觉得可以两家文本对比校对,还有就是大模型的话似乎可以fine tuning,不过我没试过。

你试试我代码呗,都是现成的。我现在除了汉大不想别的词典 :sweat_smile:

对于汉语大词典这样的大部头词典,后期文本校理时间占比才是超大头,难搞哟=_=

如果版面分析后能把跨页或跨栏的词条自动合并,那可以考虑先制作大词典的切词版。

这个不仅容易校对得多,而且还容易查找文字版所缺失的词头。

后面有余力再来吧,缺失的词头我已经找的差不多了,另一个帖子有出示

真是实现了我一直想要的东西,可惜可能是安装的库的版本问题,我无法使用你的程序。

PP-StructureV3确实很强大,体验了之后被paddle的技术震撼到了,比MinerU等其他工具的文档分析功能都强大。我之后也想自己折腾一个自动切分区块和分栏的工具了。

我一直都不太想使用Chigre(后来者又有孤影、VIM)的方案——自己对文档布局特征分析,设置宽高边距等细节参数——来精准控制图像切割,毕竟都AI时代了,一个技术革命的大时代。文档布局分析工具的背后有更强大的算法支撑,和更通用和高效的功能。

我看了MinerU的GitHub主页介绍,技术底层也有PaddleOCR模块要件。我当时也是在anaconda虚拟环境+pycharm编译器中反反复复试验才安装的第三方库和加载本地模型,现在回想起来到底怎么个装上的我也一头雾水,因为全程都是问的AI,通义、智谱对话窗口来回跳转 :sweat_smile:
我的方案对大体量的词典类PDF识别时,因为受限PaddleOCR本身模型能力,各页面版面要素区块种类判断、边界划定还是会出现失误,而且还是多发性的(主要是版心部分的,词条块与词条块按道理应该通计为“text”(正文)要素,但有时候会误判为图像、标题、图像标题等要素。即便识别正文要素区块,切分也不那么完满,有时候同一词条会切分成若干个区块),要命的是还不具备二次调整的可能。我现在主要用的内页分栏裁切、区块图像掩码功能。
后续有机会再探索其他解析效率更高的工具试试,当下也是得用且用。

能有这个效果已经很满意了。识别要素不关键,能实现一键自动分栏裁切就是目前最便利工具了。

paddle貌似独占鳌头了吧。

嗯嗯,多面手特点凸出,Github上很多免费文档解析识别工具都是基于paddle模型产线开发的

PDF版面解析的工具如今多的是,可以在github、huggingface搜,我认为paddleOCR实际上不入流,主要是中国人在用,国际社区没见很多人推荐。效果不怎么样之外,最令人讨厌的是绑定、推销自己的paddle框架,除了模型,要下载一大堆莫名其妙的东西。

百度的ai大模型也是类似的,捆绑营销自己的推理框架,跟社区主流不兼容,别人要在既有流程中使用,相当麻烦,开源模型高调推出,结果遭到普遍冷遇。

还行,就充免费这一点,没得埋汰 :laughing:我刚才用日汉词典截图试用了一下另外一家—— dots.ocr,出乎意料的强大,尤其是OCR精度,比PaddleOCR、MinerU可强太多了

不过现在没多少人会搞单纯的版面解析,基本上版面分析、OCR、文本排版这些是一体的,也不区分文本pdf、图像pdf,还是docx、XLSX等,docling、datalab-to/marker都是类似的工具,不过,它们对付中文普遍是不灵的。

我测试过dots模型,实际很一般:

春秋左传注文公十六年

师,故伐我也。若我出师,必惧而归。百濮离居,离居犹散处。 将各走其邑,谁暇谋人?”意谓楚若伐庸,百濮将自退。乃出师。 旬有五日,百濮乃罢。百濮见楚出师,果如劳贾之言,各自罢归。

自庐以往,振廪同食。庐见十四年传并注。楚由郢出师伐庸,必经庐,由郢至庐,尚自携粮。自庐出发以后,则开当地之仓廪散与将士食之。振读如周书克殷篇“振鹿台之财”之“振”,犹散也。杜注:“振,发也。”亦通。杜注曰:“同食,上下无异馔也。”次于句澮。杜注以句澮为楚之西界,汇纂谓在今湖北省均县废治西。使庐戢梨侵庸,及庸方城。言庸之方城者,别于楚之方城也。高士奇地名考略云:“今竹山县东四十五里有方城,山上平坦,四面险固,山南有城周十余里,即春秋时‘庸方城’也。”庸人逐之,囚子扬窗。杜注:“窗,戢梨官属也。”子扬为其字,窗为其名,此亦犹文九年、宣四年之称斗椒为“子越椒”。三宿而逸,曰:“庸师众,群蛮聚焉,不如复大师,复大师谓复起楚之大师。杜注谓“还复句澮师”,不确。夫句澮之师既为伐庸而来,岂有不用之理?且下文有潘 潘之言,则子扬此语,不仅为庐戢梨言之,且为楚之众将帅言之。且起王卒,欲尽用楚众。合而后进。”师叔曰:由宣十二年传文,知师叔即楚大夫潘anche。“不可。姑又与之遇以骄之。彼骄我怒,而后可克,先君蚡冒所以服经隰也。”楚世家云:“霄敖六年卒,子熊afs立,是为蚡冒。蚡冒十七年卒。蚡冒弟熊通弑蚡冒子而代立,是为楚武王。”然则蚡冒乃楚武王之兄,杜注云“楚武王父”,不知何据。梁玉绳史记志疑云:“韩子和氏篇谓‘厉王薨,武王即位’,外储说左上亦称‘楚厉王’,楚辞东方朔七谏云‘遇厉、武之不察,羌两足以毕断’,是蚡冒谥厉王矣。”孔疏云:“言服经隰,则经隰本是他国,蚡冒始服之也。”顾栋高大事表云:“荆州府以东多山谿之险,因名。”又与之遇,七遇皆北,杜注:“军走曰北。”北即背,转身而逃。此佯败北以骄敌也。唯裨、ijn、鱼人实逐之。“ijn”,或作“i”,同音俦,亦音由。杜注:“裨、i、鱼,庸三邑。”马宗珪补注云:“水经江水‘又东径鱼复’

529

LLM做中文OCR,我试下来识别率还不错的是 ERNIE-4.5-VL-28B-A3B 和阿里刚推出的qwen3-max-preview。有人说豆包模型也可以,不过我没用过。

你这拿古籍测试,生僻字肯定识别不来的 :joy:我看了官方报告和小红书网友实测,说是把阿里Qwen2.5VL-72b模型和豆包Doubao-1.5模型比下来了。你拿这一页试试看——


还有dots.ocr毕竟只是1.7b的小模型,主打轻省,这点也要考虑在内 :grinning_face_with_smiling_eyes:

金平(坂田金时之子,传说中的刚强的武将)。
③ 男のように意地強くたけだけしい女。 || 刚强勇敢的女人。~のり【~糊】[名]にかわを混ぜてねばり気を強くしたのり。 || 一种掺胶的糨糊。

きんぴん【金品】[名]金銭と品物。 || 金钱和贵重物品。值钱的东西。△~を強奪する/抢劫值钱的财物。△~を贈る/赠金钱和东西。

きんぶち【金縁】[名]金製または金色のふち。
|| 金框。金边。△~の眼鏡/金丝边眼镜。
△~の額/金边画框。

ぎんぶち【銀縁】[名]銀製または銀色のふち。
|| 银框。银边。△~の眼鏡/银丝边眼镜。

ぎんぶら【銀ぶら】[名・ス自]東京の盛り場である銀座の通りをぶらぶら散歩すること。
|| 在东京银座大街散步。逛银座。

きんぷん【金粉】[名]金または金色の合金の粉末。「きんこ」とも言う。 || 金粉(绘画等用)。(也说“きんこ”)

きんべん【勤勉】[名・ダナ]仕事や勉強に一所懸命に励むこと。 || 勤奋。勤劳。△~に働く/勤奋地工作。△彼は~家だ/他是个勤勉的人。

きんぺん【近辺】[名]近く。付近。 || 附近。近处。近旁。△東京~の海水浴場/东京附近的海水浴场。△この~は閑静だ/这一带很清静。

きんぼし【金星】[名]すもうで、平幕の力士が横綱を倒して得た勝ち星。比ゆ的に、大きな手がら。大関を負かしたのは「ぎんぼし」。 || (相扑)三级以下的力士战胜一级力士。(比喻)大功。△~をあげる/立大功。

きんほんい【金本位】[名]一国の採用する貨幣の一単位が、一定量の金と常に等価関係を持つように組織立てられた貨幣制度。 || 金本位(币制)。△名ばかりの~/徒有其名的金本位。

ぎんほんい【銀本位】[名]一国の採用する貨幣の一単位が、一定量の銀と常に等価関係を持つように組織立てられた貨幣制度。 || 银本位(币制)。

ぎんまく【銀幕】[名]映画を映す白い幕。スクリーン。転じて,映画。 || 银幕。(转义)电影。△~の女王/影坛的女皇。

きんまんか【金満家】[名]お金をたくさんもっている人。金持ち。 || 大财主。富豪。△~になる/成为富豪。

ぎんみ【吟味】[名・ス他]① 理論・品質・内容・罪状などについて,詳しく調べ確かめること。 || (仔细)斟酌。考量。考虑。考察。选


说明:

  • 文中日文词汇均以罗马音标注,并附有中文释义。
  • “△”表示例句或补充说明。
  • 格式保持原样,包括注释、分隔符、括号等。
  • 末尾“ぎんみ【吟味】”条目未完整显示,可能因图片截断导致部分内容缺失。

qwen3-max 知识量大的惊人,一上线就解决了我工作上多个悬而未决的问题,主要是知识的边界没有扩展到的原因,我问的都是行业机密,不会有人公开讨论。文本识别我测试过生僻字不太行,没有合合和有道好用。

开源OCR识别能力大多数平庸,能用联网付费的API最好。

付费的也就豆包玩得起,其他的感觉综合评估起来都不太划算