词典类图书PDF文档版面自动分析、加工的初步探索

果然是人外有人,模外有模,洋模没有土模玩的巴适 :grinning_face_with_smiling_eyes:

paddleocr在版面分析上确实是领先

https://mp.weixin.qq.com/s/5qbexPszCCm4wA3Epv9uag

你可以点开官方说明文档页面 PaddleOCR 文档的 PP-StructureV3 体验链接试试。我最近用《日本语文型辞典》的正文页面试了下,神奇的是,他尽然能识别出语词头上标注的假名,虽然偶有走位、失落,但整体而言表现尚佳,确实优于其他竞品工具(不过OCR直出的话会造成行前堆叠有假名标注,同同一行例文呈线性排列)。另外,复核官方教程和对比不同格式(图片、PDF)内页的识别结果,我发现我之前为图省事,直接导入PDF文档,再经过一轮图片转换,会使图片清晰度打个折扣,而官方体验平台若导入的是PDF格式内页也有这个缺陷,间接影响版面区块要素解析的精度,而改成图片格式导入的话,则没有这个问题。我的代码后面要因应做出调整,改成直接以图片格式导入为妥。

测试内页图片——

导出识别图片——

希望能做出调整,我无法使用主要是无法导入pdf,正好能试试了。

我体验过官网了

再看看吧,代码调试太浪费脑力和时间了,有时候调了一下午调了个“寂寞”,又得推倒重来。你要有心,可以智谱z.ai试试,我现在的主力代码工程师就是GLM4.5。
现阶段我《标准日语语法》《现代日汉双解词典》《日本语文型辞典》三本书OCR精校同时搞起,三线作战,无暇旁顾:sweat_smile:

同时开这么多啊,我最近正好改了一下对比校对的工具,现在支持多种格式了,没准可以帮上忙。

日汉双解(豆包v1.5tp).txt (9.3 MB)
日汉双解(全能王)_merged_processed.txt (9.1 MB)

你可以试试这两个OCR文本。我是以全能王版本为主,豆包版本为辅,参互校对。目前还停留在第一轮初校环节,校改到1201页了。主要的对校工具是WPS软件。

看起来很强大,赞!

想当初为了制作切片词典,费了老大劲完成一个词典,虽然词典成品看着还可以,但转头看开发的程序,基本无法成为通用的工具,毕竟每个词典的版面设计各种各样,而且扫描版还制造各种意外,需要额外处理的东西太多。

你可以试试我刚才更新的版本三代码,遗憾的是还是不够智能化 :sweat_smile:。具体的点,参见这一楼的解释——词典类图书PDF文档版面自动分析、加工的初步探索 - #28,来自 将作大匠

如果可以的话,建议使用 uv,而不是conda,uv可以让其他人完美复刻你的安装环境(python及各种依赖的版本)。

我当初是分步骤处理,这样可以极大避免此类问题。

强烈建议让AI重构一下,用所谓的python程序的现代化结构拆分为不同的功能模块,这不仅方便别人了解,更方便你自己更新迭代。

我从头到尾没有一行代码是我自己的,要我手捏代码我肯定做不到,如果你们要解读代码可以用魔法对付魔法,用AI解读AI构拟的代码,理解其中的机制原理,再进一步深入调改。anaconda虚拟环境我接触下来感觉上手不是很难,恰恰适合我这个菜鸟。至于区块元素的误判,除非走模型微调的路子,不然感觉好像没什么攻克的法子

你是手动校对的吗,没有用文本对比工具吗,我试试这个导入校对工具

就是用的WPS【审阅】模块的【对比】功能啊老哥,对我而言已经够用了,这是校稿之一
文字文稿=p1-100(校订).docx (427.1 KB)

这样啊,我没用过wps,不知道还有文档比较的功能。


把之前的通用文本处理模块改进了下,可以三版本比较了,用全能王的为主,不过目前用的是假名匹配,会出现多个假名一致的情况,也可以改成汉字和假名一起匹配,但改之前要修复方括号不统一的问题。

工具依赖nicegui,pillow和pymupdf(虽然目前没有匹配图像)

proofreading_tool.zip (14.6 MB)

哥,你这个不够简便,我实际应用起来可能还不如wps容易上手。现在市面上成熟的校对工具有很多,我还是只认准wps,它有字符集或字词级对比选项,可以在同一个校订文本中叠合在一起直观感知两个版本OCR细微差异,并且是带上下文语境的 :sweat_smile: