nyyb
1
之前在论坛问是否有人做过同系列的辞典,回复寥寥,估计是没有。这是专门的辞典,私以为还是很有参考价值的。
于是乎花了一天多时间做了这本辞典。记录下步骤给新手参考(论坛里的教程太庞杂,看花眼,我这里写个言简意赅的),同时看高手有没有更高效的手段。这个辞典最花时间的地方在于OCR目录校对,真是看花眼啊。
- 首先是词头OCR。我是使用夸克进行识别的,这个辞典目录是分为好几个列的,不处理的话OCR出来的内容有的是乱的,于是乎百度一下看是否能使用程序将每一列切出来拼成一页(人工的话真受不了,70多页的目录),一搜还真可以,可以借助opencv。那还等啥呢,于是写了个程序实验了一下,效果还不错,处理完是这样的:
原来长这个样子:
-
第二步是使用夸克OCR,本来想用全能王,但是这个一页太长了,全能王无法识别,只能使用夸克。夸克的准确率也是不错的,奈何图片有的太模糊了,有的一整页识别的是乱码,花了一天多时间,一目十行校对一遍词头,这个活是最累人的,眼睛都看花了。这一步产物是这样的:
-
接下来就是最简单的工作了,写了个小程序,生成mdx源文件,添加一下“上一页”“下一页”超链接,写个小程序生成一份简体的词头(借助python的opencc库),生成完是这个样子的:
-
第四步使用imagemagic处理词条图片了,主要是将图片四周白边切掉,减少无效区域的大小。于是写了个小程序生成批量imagemagic命令,保存为cmds.bat,拖入图片目录一执行,等待执行完毕,切好边的图片已经生成:
-
第五步使用MdxBuilder.exe生成辞典了,见图:
-
关于封面:如果需要封面的话(GoldenDict软件,别的没用过,不清楚),只需要在mdx同目录下放一张同名的图片即可。
第一次制作mdx词典,肯定还有我所不知道的更简便的方式,希望各位不吝赐教。最后产物在这下载:
链接: https://pan.baidu.com/s/1TtGniOOxKqEjYiGzP8kZDQ?pwd=wehs
基于@ jotekid兄的修订,我又生成一份mdx,其他不变:
史记辞典.mdx (278.9 KB)
01 / 20日更新:
我花了点时间将前四史的后面三本目录OCR出来了,哪位朋友感兴趣可以参与校对,如果参与校对哪一本的话,可以在下边回复一下,防止重复劳动。
汉书辞典.txt (409.7 KB)
三国志辞典.txt (281.3 KB)
后汉书辞典.txt (386.4 KB)
14 个赞
我想请老兄把这个词典的mdx或者词头上载到本坛。这个很小,上载不会有什么困难。mdd太大,可以不必上载到本坛。
道理很简单,很多书友用不了大陆网盘。假如有mdx或词头,用不了网盘的人就可以自己去找pdf,重做一个mdd。
希望可以慢慢把《二十四史辞典》mdx都凑齐。
nyyb
6
这个程序不具有普适性,而且使用的opencv的golang绑定,环境很难配置,需要自己编译opencv库,且只能检测线条,发出来小白估计也很难使用。各位如果有想制作这个系列的,我可以帮忙处理一下
nyyb
7
一个人做太难了,我校对了一天,眼睛都花了。如果大家有感兴趣的也可以制作,人多力量大嘛
2 个赞
安娜馆体积最大的就是这个版本,这个大小确实不能算太清晰。
Chinese [zh], .pdf,
/duxiu, 63.9MB,
Book (unknown), duxiu/10324703.zip
史记辞典
济南:山东教育出版社, 1991
仓修良主编
description
1 (p0-1): 词目索引
1 (p0-2): 正文
2 (p0-3): 题辞 张舜徽
3 (p0-4): 前言
5 (p0-5): 凡例
6 (p0-6): 索引检字
nyyb
9
我使用的版本比你这个大,

具体清晰度能不能比这个清晰就不知道了
这个大一点,不过笔画多一点的字还是会糊在一起。
Chinese [zh], .pdf,
/zlibzh, 136.7MB,
Book (unknown)
史记译典
济南市:山东教育出版社, 1991
仓修良
按:书名错误,须用作者“仓修良”才能搜索到。
《汉书》稍大,也许好一点。
Chinese [zh], .pdf,
/zlib, 236.2MB,
Book (unknown)
汉书辞典
山东教育出版社, 二十五史辞典, 1996
仓修良
nyyb
11
这个网站我没有会员,我这个文件是读秀的pdg,应该不会有比这个更清晰的了吧?除非自己扫描的
安娜某些来自读秀的书,也许是特别用修图软件(或AI修图法)修过的?超级庞大,具有出奇的清晰度。但是不常见。也许只有少数他们特别重视的书才这样搞?
这种历史词典图像源不好,也显然没修过。
来自zlib的书,有的也可能是用户自己扫描的。
在楼主的索引文件基础上修正了400左右的OCR错误,提供索引也方便大家自己折腾。
史记辞典-index.txt (189.6 KB)
2 个赞
nyyb
16
辛苦,基于兄弟的修订,我又重新生成一份,可下载更新
阿弥陀佛
17
中华书局的 籍合网 有文字版的,能抓下来做文字版更好了。
jcz777
19
试用了一下,效果还是挺不错,就是巨吃显卡,处理起来很慢~
还有就是,输出后文件巨大,膨胀10倍以上。这点在输出方面很不友好,不是原格式保存。像纯黑白的PNG,处理后成全彩PNG,大小成吨惊人啊。
1 个赞