词典切图程序

用deepseek写了一个切图的程序,后面慢慢更新。这是一个目前还非常初步的程序!
dictionary_splitter.py (12.1 KB)
程序源文件,使用Python语言,requirements: cv2, numpy, os
这个程序的原理是词条间的空格/行比词条内部的行距宽,如果不是这样排版的词典切不了。
有很多参数,调参挺费劲的。
binary_test.py (5.8 KB)
其中二值化部分调参的独立程序


测试用的词典单页
output.zip (2.2 MB)
切出的结果

5 个赞

普大喜奔啊,祝贺。

hw2.py (6.3 KB)
针对每个切图,OCR一个词头的程序。这个程序输出错误结果很多,需要修改或处理的词头可能达到总数量的5%。1楼切图程序的的错误率在1-2%.

如果真有一个简单好用的切词程序出来,那真是太牛了。混了十年词典论坛都没解决的问题,哈哈。

我现在不觉得会有什么对任何词典都好用的唯一程序。不同的词典排版都很不一样,得针对排版的特点才能分词。

这两天写了一个针对《汉语大词典》的分词程序
sp1.py (10.1 KB)
《汉大》的排版特征比较复杂,很难搞


测试用的词典单页
output.zip (2.3 MB)
切出的结果。除了有图的地方没切开,其他的都还好

2 个赞

这个好,效果很惊艳。就不知道这个自动化切图程序是每册都得另行调过参数还是可以同一部书多卷一拢总下来都可以沿用

这个看单页jpg处理的情况:是否每页的排版都一致?是否每张图都差不多大?二值化是不是做得好,没有噪点?四周的白边是不是裁切得差不多宽?参数与这些有关。我认为整页版mdd中的图像已经处理得不错,如果真要做,要多处理一些页数,裁出2000-10000张图,就可以统计裁切准确率。

如果一卷字词按一万来算,也即意味着只要裁出三分之一的量,就可以统计裁得好不好了嘛?还有咱这个程序有办法设定成先画出字词条裁切虚线,然后一页一页地过,点击某字条、某页眉部分,自动以纯白色块(相当于马赛克)掩覆,然后可以以图片导出刨除色块掩盖的部分。另外你设计的程序是不是可以推而广之,应用到一般版式的中文图书的裁切上不,现在有新推出的诸如mineru之类的pdf文档智能解析工具,在页眉、页脚、脚注、页码等元素自动化删除上表现尚佳,但是版心OCR简直一坨野屎,完全达不到理想水准

统计正确率还是不难的,需要的数量只是我根据经验估计。现在都还是脚本形式,操作界面是一大后期提升的难点,如果要搞,不会很容易。至于一般版式的识别,可能非AI不行,只有利用现有开源成果一条路。中文OCR怎么都难做,错误率都是很高的。这个切词程序和OCR没有关系,3楼的OCR只是为了获取词头。而且,一般版式的图书为什么需要裁切?我这个只是用于做切图词典。

一般版式的,为了OCR便利,也需要切图。就比如说我用mineru,它刨除页眉、页脚等不相关元素直接导出的ocr文稿,根本不敷于用。而实质上我压根不用它的ocr,等于说它刨除页眉、页脚的功能也白白浪费了,利用不上

只是切四周的话,和本题的程序不是一回事。完全可以再写一个。我这个程序目前切页眉还是个问题。而且各书版式不同,通用的没那么好做。最好是想切哪本书就根据情况现写程序,也就一两天的事。不过为了OCR文本而需要切出版心,这倒是一个不错的需求,想OCR的人多着。你有什么急要的书?可私发一两页样例,我试着搞搞。这个问题最好不在本楼下回复了,免得离题。

吴光华的世纪汉英大辞典能否试着切图一下呀。

做切图词典切完要校对的,我一个人可干不完。

大家得共同参与呀。本网站有这部词典的高清版。能否针对性的写一个截图程序给大家用呀。我准备慢慢试试。可以搞个粗略本,在慢慢调改。

我看了,这个词典的排版也很复杂,挺不好写的。况且这个坛上真能凑齐人共同校对吗,我是怀疑的。我如果找到空闲的时间,再来写吧。

嗯。有个能用就不错。后续再慢慢弄哈。