词典类图书PDF文档版面自动分析、加工的初步探索

endnote · 2025 年8 月 10 日 12:35

PDF规范很乱，有不少奇葩的。
试一下这本的OCR？

wynick27 · 2025 年8 月 10 日 12:47

楼主的工具感觉做切分的话肯定是够用的。不过最终还是要ocr得到整体文本内容的话，感觉比起预处理，后处理可以解决不少问题。比如标点和异体字问题我都遇到过，都是后处理解决的。不过我这个不是字典，没有那么多生僻字。解决正确率问题我觉得可以两家文本对比校对，还有就是大模型的话似乎可以fine tuning，不过我没试过。

将作大匠 · 2025 年8 月 10 日 12:59

你试试我代码呗，都是现成的。我现在除了汉大不想别的词典

将作大匠 · 2025 年8 月 10 日 13:01

对于汉语大词典这样的大部头词典，后期文本校理时间占比才是超大头，难搞哟=_=

endnote · 2025 年8 月 12 日 03:46

如果版面分析后能把跨页或跨栏的词条自动合并，那可以考虑先制作大词典的切词版。

这个不仅容易校对得多，而且还容易查找文字版所缺失的词头。

将作大匠 · 2025 年8 月 12 日 04:12

后面有余力再来吧，缺失的词头我已经找的差不多了，另一个帖子有出示

amob · 2025 年9 月 14 日 08:40

真是实现了我一直想要的东西，可惜可能是安装的库的版本问题，我无法使用你的程序。

PP-StructureV3确实很强大，体验了之后被paddle的技术震撼到了，比MinerU等其他工具的文档分析功能都强大。我之后也想自己折腾一个自动切分区块和分栏的工具了。

我一直都不太想使用Chigre（后来者又有孤影、VIM）的方案——自己对文档布局特征分析，设置宽高边距等细节参数——来精准控制图像切割，毕竟都AI时代了，一个技术革命的大时代。文档布局分析工具的背后有更强大的算法支撑，和更通用和高效的功能。

将作大匠 · 2025 年9 月 14 日 10:45

我看了MinerU的GitHub主页介绍，技术底层也有PaddleOCR模块要件。我当时也是在anaconda虚拟环境+pycharm编译器中反反复复试验才安装的第三方库和加载本地模型，现在回想起来到底怎么个装上的我也一头雾水，因为全程都是问的AI，通义、智谱对话窗口来回跳转
我的方案对大体量的词典类PDF识别时，因为受限PaddleOCR本身模型能力，各页面版面要素区块种类判断、边界划定还是会出现失误，而且还是多发性的（主要是版心部分的，词条块与词条块按道理应该通计为“text”（正文）要素，但有时候会误判为图像、标题、图像标题等要素。即便识别正文要素区块，切分也不那么完满，有时候同一词条会切分成若干个区块），要命的是还不具备二次调整的可能。我现在主要用的内页分栏裁切、区块图像掩码功能。
后续有机会再探索其他解析效率更高的工具试试，当下也是得用且用。

amob · 2025 年9 月 14 日 10:56

能有这个效果已经很满意了。识别要素不关键，能实现一键自动分栏裁切就是目前最便利工具了。

paddle貌似独占鳌头了吧。

将作大匠 · 2025 年9 月 14 日 11:16

嗯嗯，多面手特点凸出，Github上很多免费文档解析识别工具都是基于paddle模型产线开发的

mixivivo · 2025 年9 月 14 日 11:40

PDF版面解析的工具如今多的是，可以在github、huggingface搜，我认为paddleOCR实际上不入流，主要是中国人在用，国际社区没见很多人推荐。效果不怎么样之外，最令人讨厌的是绑定、推销自己的paddle框架，除了模型，要下载一大堆莫名其妙的东西。

百度的ai大模型也是类似的，捆绑营销自己的推理框架，跟社区主流不兼容，别人要在既有流程中使用，相当麻烦，开源模型高调推出，结果遭到普遍冷遇。

将作大匠 · 2025 年9 月 14 日 11:58

还行，就充免费这一点，没得埋汰我刚才用日汉词典截图试用了一下另外一家—— dots.ocr，出乎意料的强大，尤其是OCR精度，比PaddleOCR、MinerU可强太多了

mixivivo · 2025 年9 月 14 日 12:06

不过现在没多少人会搞单纯的版面解析，基本上版面分析、OCR、文本排版这些是一体的，也不区分文本pdf、图像pdf，还是docx、XLSX等，docling、datalab-to/marker都是类似的工具，不过，它们对付中文普遍是不灵的。

mixivivo · 2025 年9 月 14 日 12:09

我测试过dots模型，实际很一般：

春秋左传注文公十六年

师，故伐我也。若我出师，必惧而归。百濮离居，离居犹散处。将各走其邑，谁暇谋人？”意谓楚若伐庸，百濮将自退。乃出师。旬有五日，百濮乃罢。百濮见楚出师，果如劳贾之言，各自罢归。

自庐以往，振廪同食。庐见十四年传并注。楚由郢出师伐庸，必经庐，由郢至庐，尚自携粮。自庐出发以后，则开当地之仓廪散与将士食之。振读如周书克殷篇“振鹿台之财”之“振”，犹散也。杜注：“振，发也。”亦通。杜注曰：“同食，上下无异馔也。”次于句澮。杜注以句澮为楚之西界，汇纂谓在今湖北省均县废治西。使庐戢梨侵庸，及庸方城。言庸之方城者，别于楚之方城也。高士奇地名考略云：“今竹山县东四十五里有方城，山上平坦，四面险固，山南有城周十余里，即春秋时‘庸方城’也。”庸人逐之，囚子扬窗。杜注：“窗，戢梨官属也。”子扬为其字，窗为其名，此亦犹文九年、宣四年之称斗椒为“子越椒”。三宿而逸，曰：“庸师众，群蛮聚焉，不如复大师，复大师谓复起楚之大师。杜注谓“还复句澮师”，不确。夫句澮之师既为伐庸而来，岂有不用之理？且下文有潘潘之言，则子扬此语，不仅为庐戢梨言之，且为楚之众将帅言之。且起王卒，欲尽用楚众。合而后进。”师叔曰：由宣十二年传文，知师叔即楚大夫潘anche。“不可。姑又与之遇以骄之。彼骄我怒，而后可克，先君蚡冒所以服经隰也。”楚世家云：“霄敖六年卒，子熊afs立，是为蚡冒。蚡冒十七年卒。蚡冒弟熊通弑蚡冒子而代立，是为楚武王。”然则蚡冒乃楚武王之兄，杜注云“楚武王父”，不知何据。梁玉绳史记志疑云：“韩子和氏篇谓‘厉王薨，武王即位’，外储说左上亦称‘楚厉王’，楚辞东方朔七谏云‘遇厉、武之不察，羌两足以毕断’，是蚡冒谥厉王矣。”孔疏云：“言服经隰，则经隰本是他国，蚡冒始服之也。”顾栋高大事表云：“荆州府以东多山谿之险，因名。”又与之遇，七遇皆北，杜注：“军走曰北。”北即背，转身而逃。此佯败北以骄敌也。唯裨、ijn、鱼人实逐之。“ijn”，或作“i”，同音俦，亦音由。杜注：“裨、i、鱼，庸三邑。”马宗珪补注云：“水经江水‘又东径鱼复’

529

mixivivo · 2025 年9 月 14 日 12:17

LLM做中文OCR，我试下来识别率还不错的是 ERNIE-4.5-VL-28B-A3B 和阿里刚推出的qwen3-max-preview。有人说豆包模型也可以，不过我没用过。

将作大匠 · 2025 年9 月 14 日 12:42

你这拿古籍测试，生僻字肯定识别不来的我看了官方报告和小红书网友实测，说是把阿里Qwen2.5VL-72b模型和豆包Doubao-1.5模型比下来了。你拿这一页试试看——

还有dots.ocr毕竟只是1.7b的小模型，主打轻省，这点也要考虑在内

last_idol · 2025 年9 月 14 日 13:36

金平（坂田金时之子，传说中的刚强的武将）。
③ 男のように意地強くたけだけしい女。 || 刚强勇敢的女人。～のり【～糊】[名]にかわを混ぜてねばり気を強くしたのり。 || 一种掺胶的糨糊。

きんぴん【金品】[名]金銭と品物。 || 金钱和贵重物品。值钱的东西。△～を強奪する／抢劫值钱的财物。△～を贈る／赠金钱和东西。

きんぶち【金縁】[名]金製または金色のふち。
|| 金框。金边。△～の眼鏡／金丝边眼镜。
△～の額／金边画框。

ぎんぶち【銀縁】[名]銀製または銀色のふち。
|| 银框。银边。△～の眼鏡／银丝边眼镜。

ぎんぶら【銀ぶら】[名・ス自]東京の盛り場である銀座の通りをぶらぶら散歩すること。
|| 在东京银座大街散步。逛银座。

きんぷん【金粉】[名]金または金色の合金の粉末。「きんこ」とも言う。 || 金粉（绘画等用）。（也说“きんこ”）

きんべん【勤勉】[名・ダナ]仕事や勉強に一所懸命に励むこと。 || 勤奋。勤劳。△～に働く／勤奋地工作。△彼は～家だ／他是个勤勉的人。

きんぺん【近辺】[名]近く。付近。 || 附近。近处。近旁。△東京～の海水浴場／东京附近的海水浴场。△この～は閑静だ／这一带很清静。

きんぼし【金星】[名]すもうで、平幕の力士が横綱を倒して得た勝ち星。比ゆ的に、大きな手がら。大関を負かしたのは「ぎんぼし」。 || （相扑）三级以下的力士战胜一级力士。（比喻）大功。△～をあげる／立大功。

きんほんい【金本位】[名]一国の採用する貨幣の一単位が、一定量の金と常に等価関係を持つように組織立てられた貨幣制度。 || 金本位（币制）。△名ばかりの～／徒有其名的金本位。

ぎんほんい【銀本位】[名]一国の採用する貨幣の一単位が、一定量の銀と常に等価関係を持つように組織立てられた貨幣制度。 || 银本位（币制）。

ぎんまく【銀幕】[名]映画を映す白い幕。スクリーン。転じて，映画。 || 银幕。（转义）电影。△～の女王／影坛的女皇。

きんまんか【金満家】[名]お金をたくさんもっている人。金持ち。 || 大财主。富豪。△～になる／成为富豪。

ぎんみ【吟味】[名・ス他]① 理論・品質・内容・罪状などについて，詳しく調べ確かめること。 || （仔细）斟酌。考量。考虑。考察。选

说明：

文中日文词汇均以罗马音标注，并附有中文释义。
“△”表示例句或补充说明。
格式保持原样，包括注释、分隔符、括号等。
末尾“ぎんみ【吟味】”条目未完整显示，可能因图片截断导致部分内容缺失。

last_idol · 2025 年9 月 14 日 13:40

qwen3-max 知识量大的惊人，一上线就解决了我工作上多个悬而未决的问题，主要是知识的边界没有扩展到的原因，我问的都是行业机密，不会有人公开讨论。文本识别我测试过生僻字不太行，没有合合和有道好用。

amob · 2025 年9 月 14 日 13:59

开源OCR识别能力大多数平庸，能用联网付费的API最好。

将作大匠 · 2025 年9 月 14 日 14:08

付费的也就豆包玩得起，其他的感觉综合评估起来都不太划算