步天歌
1
本帖分享的文件已经有 mdx版本了:
《講談社中日辞典 第三版》:
《講談社 日中辞典》
偶然淘到了有光盘的《講談社中日辞典 第三版》(2010年04月09日出版)和《講談社 日中辞典》(2006年03月24日出版),试了下没能成功提取出数据制成mdx,所以只能分享光盘数据供大家用用啦(其实是试图勾引大佬出手转制)
再次声明:没有 mdx 格式! 没有 mdx格式 ! 没有mdx格式 !
另外:只能在Windows下使用,不支持 macOS。
由于都是比较老的辞典了,所以存在一些奇怪的Bug,下面简单说说。
注:均为 Windows 10 下测试,未在 Windows11下测试。
当商品は、Windows XP、Windows Vistaで動作保証をしておりますが、Windows7以降のOSには対応していません。
《講談社中日辞典 第三版》
《講談社中日辞典 第三版》:开始菜单的应用名称显示乱码
《講談社中日辞典 第三版》:点击【中日辞典】开始使用。
【更新】按钮失效
官方已经发布不再维护更新的相关通知:
『講談社中日辞典 第三版』付属CD-ROMのインターネット接続は、2021年6月30日をもちまして、終了いたしました。
長らくのご愛顧ありがとうございました。
标题栏乱码
其余功能均正常,算是可以正常使用。
《講談社 日中辞典》
结论:完全不能用
点击搜索结果中的单词完全无法正确跳转到相应的位置。
快速下载
综上:如无转制想法,只需下载講談社中日辞典.zip
后,双击 Setup.exe 安装即可。
不用下载講談社日中辞典.zip
,因为《講談社日中辞典》存在严重的Bug基本无法正常使用,而且有坛友分享了mdx格式:
数据提取
上面提供的下载链接中有講談社 日中辞典-数据文件-dic.zip
和講談社 中日辞典-数据文件-dic.zip
这2个文件,疑为辞典程序的数据文件,但本人无二进制文件处理经验,故只是将其上传。
安装日中辞典
软件后可以在C:\Program Files (x86)\講談社 日中辞典\Data
找到一个40MB的dic.data
文件,应为辞典数据来源,但是二进制文件。
安装中日辞典
软件后可以在C:\Program Files (x86)\Kodansha\CJDictionary\CJ\data
找到37MB左右名为dic.data
的二进制文件,应该也是辞典数据来源。
2 Likes
查看二进制文件是以 789c 开头,就是使用 zlib 压缩的文件。可以写代码循环提取,也可以直接用别人写好的。Luigi Auriemma (下载 offzip 提取
offzip.zip (216.2 KB)
4 Likes
amob
4
中日辞典附带的現代中国語新語辞典,是不是不存储在本地的?服务器貌似关闭了。
1 Like
步天歌
5
应该是,C:\Program Files (x86)\Kodansha\CJDictionary\CNew\data
这个路径里面只有Params.data
的文件,没有dic.data
文件。
amob
6
还有个问题如何解决?中日辞典的图片映射关系,html路径都用的df:数字最不济得人工找对应关系。而且正文标记符号图片还缺了几十张。
程序得插入光盘才能打开,我不知道原貌。
1 Like
amob
9
直接用程序提取得到的是245张附图,即icon的bmp位图后方的若干个文件,这里的排列顺序就是df:数字对应的图片关系,从44号开始是附图。前方是正好37个jpg缺失,正好对应前37个编号(23号无),应该大部分是图片字,不是符号,后面六个名字特殊的可能是符号。
驼鹿0
卦1,2
虚线2
〓3
榔头4
老头儿鱼5,6
旁7
斜玉旁儿7
耳刀8,9
提10
钩11
折12
摺13
打14,15
偻16
偻〓16
喽啰16
鸡奸17
地鳖18
行院19
胼胝20
腼腆21
虺22
虺〓22
〓24
〓熰25
铮26
铮〓26
鸨27
跄跄28
白〓豚29
双喜30
双喜字30
欸31,32,33,34
欸誒31,32,33,34
呣35
姆36
打钩37
1 Like
講談社日中 shtjjh (ed._20211118).7z (17,9 MB)
講談社日中已经有比较好的mdx了,对比了一下与楼主的光盘版本完全相同
3 Likes
amob
11
如何提取图片不是以md5命名而是以我给出的图片内的正确方式命名?我实在不懂这些。如果不行,只能人工一个个对校200多张图片了。
amob
12
有个fpx文件内部也找不到这些图片字,提取得到的只有一张意义不明的图片:

导出文件时,加上参数 -a 或者 -a -1,文件会以偏移量命名,偏移量按从小到大排序,就是在光盘文件里的顺序,可能会有帮助。
1 Like
amob
14
图片字可能藏在00000014.dat内,老兄知道如何解析吗?
amob
18
实在没办法提取可以从内存里读取,就是得一条条搜索一个个保存。
步天歌
19
整理了这里提到的外字图片,如果不嫌麻烦,可以把图片换成对应的字符。
講談社中日辞典.pdf (4.8 MB)
可以提供下这2个词条的更多信息么?(比如图片附近的上下文之类的)
〓24(在原程序里搜【〓】,搜不到任何结果2333)
打14,15 (这个释义有点多,找了半天都没找到图片的位置,如果能把图片附近的文字也一起提供的话,应该能找出来)
看错文件,图片确实在 00000014.dat 里面,一会提取,文件名也是现成的,不需要校对了。如果没提取错的话。 
files.txt (2.9 KB)
00000014.dat 里面只有 38 张图片,文件名对不上图片,应该还有另外的索引文件。