史记辞典图片版

nyyb · 2025 年1 月 19 日 05:21

之前在论坛问是否有人做过同系列的辞典，回复寥寥，估计是没有。这是专门的辞典，私以为还是很有参考价值的。

于是乎花了一天多时间做了这本辞典。记录下步骤给新手参考（论坛里的教程太庞杂，看花眼，我这里写个言简意赅的），同时看高手有没有更高效的手段。这个辞典最花时间的地方在于OCR目录校对，真是看花眼啊。

首先是词头OCR。我是使用夸克进行识别的，这个辞典目录是分为好几个列的，不处理的话OCR出来的内容有的是乱的，于是乎百度一下看是否能使用程序将每一列切出来拼成一页（人工的话真受不了，70多页的目录），一搜还真可以，可以借助opencv。那还等啥呢，于是写了个程序实验了一下，效果还不错，处理完是这样的：

image330×887 76.5 KB

原来长这个样子：

第二步是使用夸克OCR，本来想用全能王，但是这个一页太长了，全能王无法识别，只能使用夸克。夸克的准确率也是不错的，奈何图片有的太模糊了，有的一整页识别的是乱码，花了一天多时间，一目十行校对一遍词头，这个活是最累人的，眼睛都看花了。这一步产物是这样的：

image307×416 8.09 KB
接下来就是最简单的工作了，写了个小程序，生成mdx源文件，添加一下“上一页”“下一页”超链接，写个小程序生成一份简体的词头（借助python的opencc库），生成完是这个样子的：

image1397×477 22.6 KB
第四步使用imagemagic处理词条图片了，主要是将图片四周白边切掉，减少无效区域的大小。于是写了个小程序生成批量imagemagic命令，保存为cmds.bat，拖入图片目录一执行，等待执行完毕，切好边的图片已经生成：

image681×244 51.3 KB
第五步使用MdxBuilder.exe生成辞典了，见图：

image590×601 12.6 KB
关于封面：如果需要封面的话（GoldenDict软件，别的没用过，不清楚），只需要在mdx同目录下放一张同名的图片即可。

第一次制作mdx词典，肯定还有我所不知道的更简便的方式，希望各位不吝赐教。最后产物在这下载：
链接: https://pan.baidu.com/s/1TtGniOOxKqEjYiGzP8kZDQ?pwd=wehs

基于@ jotekid兄的修订，我又生成一份mdx，其他不变：
史记辞典.mdx (278.9 KB)

01 / 20日更新：
我花了点时间将前四史的后面三本目录OCR出来了，哪位朋友感兴趣可以参与校对，如果参与校对哪一本的话，可以在下边回复一下，防止重复劳动。

汉书辞典.txt (409.7 KB)
三国志辞典.txt (281.3 KB)
后汉书辞典.txt (386.4 KB)

shaoshi · 2025 年1 月 19 日 05:45

我想请老兄把这个词典的mdx或者词头上载到本坛。这个很小，上载不会有什么困难。mdd太大，可以不必上载到本坛。

道理很简单，很多书友用不了大陆网盘。假如有mdx或词头，用不了网盘的人就可以自己去找pdf，重做一个mdd。

希望可以慢慢把《二十四史辞典》mdx都凑齐。

say · 2025 年1 月 19 日 09:30

每一列切出来拼成一页，可以把这小程序发上来？

格蕾特 · 2025 年1 月 19 日 09:35

史记辞典.zip (444.7 KB)

nyyb · 2025 年1 月 19 日 10:33

这个程序不具有普适性，而且使用的opencv的golang绑定，环境很难配置，需要自己编译opencv库，且只能检测线条，发出来小白估计也很难使用。各位如果有想制作这个系列的，我可以帮忙处理一下

nyyb · 2025 年1 月 19 日 10:34

一个人做太难了，我校对了一天，眼睛都花了。如果大家有感兴趣的也可以制作，人多力量大嘛

shaoshi · 2025 年1 月 19 日 10:40

安娜馆体积最大的就是这个版本，这个大小确实不能算太清晰。

Chinese [zh], .pdf, /duxiu, 63.9MB, Book (unknown), duxiu/10324703.zip
史记辞典
济南:山东教育出版社, 1991
仓修良主编
description
1 (p0-1): 词目索引
1 (p0-2): 正文
2 (p0-3): 题辞张舜徽
3 (p0-4): 前言
5 (p0-5): 凡例
6 (p0-6): 索引检字

nyyb · 2025 年1 月 19 日 10:45

我使用的版本比你这个大，

具体清晰度能不能比这个清晰就不知道了

shaoshi · 2025 年1 月 19 日 12:07

这个大一点，不过笔画多一点的字还是会糊在一起。

Chinese [zh], .pdf, /zlibzh, 136.7MB, Book (unknown)
史记译典
济南市:山东教育出版社, 1991
仓修良

按：书名错误，须用作者“仓修良”才能搜索到。

《汉书》稍大，也许好一点。

Chinese [zh], .pdf, /zlib, 236.2MB, Book (unknown)
汉书辞典
山东教育出版社, 二十五史辞典, 1996
仓修良

nyyb · 2025 年1 月 19 日 12:08

这个网站我没有会员，我这个文件是读秀的pdg，应该不会有比这个更清晰的了吧？除非自己扫描的

shaoshi · 2025 年1 月 19 日 12:15

安娜某些来自读秀的书，也许是特别用修图软件(或AI修图法)修过的？超级庞大，具有出奇的清晰度。但是不常见。也许只有少数他们特别重视的书才这样搞？

这种历史词典图像源不好，也显然没修过。

来自zlib的书，有的也可能是用户自己扫描的。

sculiuchang · 2025 年1 月 19 日 13:14

nyyb牛叉呀！！！辛苦了。

yaviscz · 2025 年1 月 20 日 03:25

感谢楼主无私分享，先收藏，他日应该会用得上。

jotekid · 2025 年1 月 20 日 14:06

在楼主的索引文件基础上修正了400左右的OCR错误，提供索引也方便大家自己折腾。

史记辞典-index.txt (189.6 KB)

nyyb · 2025 年1 月 20 日 14:50

辛苦，基于兄弟的修订，我又重新生成一份，可下载更新

阿弥陀佛 · 2025 年1 月 20 日 15:04

中华书局的籍合网有文字版的，能抓下来做文字版更好了。

nyyb · 2025 年1 月 20 日 15:13

工程量太大难以实现

jcz777 · 2025 年1 月 20 日 15:59

试用了一下，效果还是挺不错，就是巨吃显卡，处理起来很慢～
还有就是，输出后文件巨大，膨胀10倍以上。这点在输出方面很不友好，不是原格式保存。像纯黑白的PNG，处理后成全彩PNG，大小成吨惊人啊。

say · 2025 年1 月 20 日 23:13

汉书辞典我来校对。

nyyb · 2025 年1 月 21 日 01:09

咋感觉两张图差别不太大呀