词典类图书PDF文档版面自动分析、加工的初步探索

将作大匠 · 2025 年9 月 14 日 14:09

果然是人外有人，模外有模，洋模没有土模玩的巴适

amob · 2025 年9 月 22 日 01:50

paddleocr在版面分析上确实是领先

https://mp.weixin.qq.com/s/5qbexPszCCm4wA3Epv9uag

将作大匠 · 2025 年9 月 22 日 02:32

你可以点开官方说明文档页面 PaddleOCR 文档的 PP-StructureV3 体验链接试试。我最近用《日本语文型辞典》的正文页面试了下，神奇的是，他尽然能识别出语词头上标注的假名，虽然偶有走位、失落，但整体而言表现尚佳，确实优于其他竞品工具（不过OCR直出的话会造成行前堆叠有假名标注，同同一行例文呈线性排列）。另外，复核官方教程和对比不同格式（图片、PDF）内页的识别结果，我发现我之前为图省事，直接导入PDF文档，再经过一轮图片转换，会使图片清晰度打个折扣，而官方体验平台若导入的是PDF格式内页也有这个缺陷，间接影响版面区块要素解析的精度，而改成图片格式导入的话，则没有这个问题。我的代码后面要因应做出调整，改成直接以图片格式导入为妥。

将作大匠 · 2025 年9 月 22 日 02:34

测试内页图片——

导出识别图片——

amob · 2025 年9 月 22 日 02:57

希望能做出调整，我无法使用主要是无法导入pdf，正好能试试了。

我体验过官网了

将作大匠 · 2025 年9 月 22 日 03:39

再看看吧，代码调试太浪费脑力和时间了，有时候调了一下午调了个“寂寞”，又得推倒重来。你要有心，可以智谱z.ai试试，我现在的主力代码工程师就是GLM4.5。
现阶段我《标准日语语法》《现代日汉双解词典》《日本语文型辞典》三本书OCR精校同时搞起，三线作战，无暇旁顾

wynick27 · 2025 年9 月 22 日 05:53

同时开这么多啊，我最近正好改了一下对比校对的工具，现在支持多种格式了，没准可以帮上忙。

将作大匠 · 2025 年9 月 22 日 06:31

日汉双解（豆包v1.5tp）.txt (9.3 MB)
日汉双解（全能王）_merged_processed.txt (9.1 MB)

你可以试试这两个OCR文本。我是以全能王版本为主，豆包版本为辅，参互校对。目前还停留在第一轮初校环节，校改到1201页了。主要的对校工具是WPS软件。

Vim · 2025 年9 月 22 日 06:37

看起来很强大，赞！

想当初为了制作切片词典，费了老大劲完成一个词典，虽然词典成品看着还可以，但转头看开发的程序，基本无法成为通用的工具，毕竟每个词典的版面设计各种各样，而且扫描版还制造各种意外，需要额外处理的东西太多。

将作大匠 · 2025 年9 月 22 日 06:54

你可以试试我刚才更新的版本三代码，遗憾的是还是不够智能化。具体的点，参见这一楼的解释——词典类图书PDF文档版面自动分析、加工的初步探索 - #28，来自将作大匠

Vim · 2025 年9 月 22 日 07:24

如果可以的话，建议使用 uv，而不是conda，uv可以让其他人完美复刻你的安装环境（python及各种依赖的版本）。

Vim · 2025 年9 月 22 日 07:28

我当初是分步骤处理，这样可以极大避免此类问题。

Vim · 2025 年9 月 22 日 07:59

强烈建议让AI重构一下，用所谓的python程序的现代化结构拆分为不同的功能模块，这不仅方便别人了解，更方便你自己更新迭代。

将作大匠 · 2025 年9 月 22 日 08:12

我从头到尾没有一行代码是我自己的，要我手捏代码我肯定做不到，如果你们要解读代码可以用魔法对付魔法，用AI解读AI构拟的代码，理解其中的机制原理，再进一步深入调改。anaconda虚拟环境我接触下来感觉上手不是很难，恰恰适合我这个菜鸟。至于区块元素的误判，除非走模型微调的路子，不然感觉好像没什么攻克的法子

wynick27 · 2025 年9 月 22 日 09:24

你是手动校对的吗，没有用文本对比工具吗，我试试这个导入校对工具

将作大匠 · 2025 年9 月 22 日 09:36

就是用的WPS【审阅】模块的【对比】功能啊老哥，对我而言已经够用了，这是校稿之一
文字文稿=p1-100（校订）.docx (427.1 KB)

wynick27 · 2025 年9 月 23 日 03:12

这样啊，我没用过wps，不知道还有文档比较的功能。

wynick27 · 2025 年9 月 23 日 05:33

把之前的通用文本处理模块改进了下，可以三版本比较了，用全能王的为主，不过目前用的是假名匹配，会出现多个假名一致的情况，也可以改成汉字和假名一起匹配，但改之前要修复方括号不统一的问题。

工具依赖nicegui，pillow和pymupdf（虽然目前没有匹配图像）

proofreading_tool.zip (14.6 MB)

将作大匠 · 2025 年9 月 23 日 06:09

哥，你这个不够简便，我实际应用起来可能还不如wps容易上手。现在市面上成熟的校对工具有很多，我还是只认准wps，它有字符集或字词级对比选项，可以在同一个校订文本中叠合在一起直观感知两个版本OCR细微差异，并且是带上下文语境的