【阿彌陀佛】手把手教你做切图词典(单栏)[教程]

先下载整页版词典,也可自己做整页的。整页和教程推荐此教程:一键制作图片词典 MdxSourceBuilder
今天以此为例:先下载
【整页版】中国历代官制大辞典(修订版)
一、解压MDX,MDD,用 MdxExport.exe 这工具。MdxExport3.5-MDX与MDD资源导出小工具。
得到TXT和图片。
image
二、处理图片,先切白边,用老马的ComicEnhancerPro。比较简单,也有相关教程。自己找下。切白边后,效果如图:

2.1、有部分图片要单独处理。此书为例:有1、3、15、89、210、355、443、494、623、711、776、829、875、900、913、924、932、935、937、939页要单独处理。用PS处理下。移到左边,方便切分。否则不好看。还有的更复杂,像王力古汉语字典、辞源之类的,中间断开,分为上下两块。也要单独处理。如果没有中间的部分,此步可省略。


2.2、切分图片。切之前先检查下白边是否都切干净了,有的四周有污点,软件切不干净,要单独处理。切分图片我用的是图片工厂。也可用其他软件。


等会。。。完成之后,跳出:
image
已经切好了:
image
全部提出到根目录:用此小工具,复制到此文件夹,双击运行即可提取子文件夹中的文件到根目录.rar (184 字节)
完成后删去空文件夹,效果如图:
image
重命名:我用菲菲更名宝贝,其他都可以,_1_替换为.即可。其实不更名也行。我习惯更名,显得简洁些。
更名后:
image
把不用切分的图片和已经切开的放一起。进行二值化处理,就是去色,压小图片,否则图片太大。老马软件ComicEnhancerPro
此处可单独出一教程:要求不高的,可自己简单摸索。不难。参数要反复调试。达到最佳效果。图片较多,此处要花些时间。。。

三、以上,图片就处理完了。接下来要处理TXT。软件推荐EmEditor,处理大文件流畅!要懂点正则:
()替换为\1.1\2
\1.2\2


四、重新打包。工具MdxBuilder3.2
CSS可放在图片文件夹里一起打包进去。
image

image
这样就完成了切图版!
完成的成品效果图:


成品下载:
链接: https://pan.baidu.com/s/1BGNeJwVw8mz5XGM0noI7GQ 提取码: uch5

9 Likes

请问词头是如何取得呢?或者说是手打出来的?

詞頭只能OCR,再校對。真正費時的是搞索引。

師兄,太強大了,讚呀!在下,都搞不定老馬的切邊,都用scantailor,為了切個邊,手指都搞到快中風…切邊真是太麻煩了!

get到了,一定要学会

满足了一部分人想学习的愿望。感谢。

学习中,收藏了有空自己也试试……

ComicEnhancerPro 的自动化处理很强大,可拿几张图片试验几次。

如果处理的图片质量没问题,则选择自动识别范围,页面大小选切割后大小(如选周边填白,则页面还是有空白)。
如果处理有扫描黑边的图片,第一遍可考虑不切空白四周,先去黑边居中。有的pdf 奇偶页其实是有规律的,那可以分开两次分别处理(识别范围红色方格做下调整)。等没问题了,最后一步再去除四周空白。

Tg群中前不久有高人帮我使用 OpenCV 处理切边,很好很强大,需要的可以去学习