講談社 中日辞典&講談社 日中辞典 光盘文件分享(非mdx格式)

本帖分享的文件已经有 mdx版本了:

《講談社中日辞典 第三版》:

《講談社 日中辞典》

偶然淘到了有光盘的《講談社中日辞典 第三版》(2010年04月09日出版)和《講談社 日中辞典》(2006年03月24日出版),试了下没能成功提取出数据制成mdx,所以只能分享光盘数据供大家用用啦(其实是试图勾引大佬出手转制

再次声明:没有 mdx 格式! 没有 mdx格式 ! 没有mdx格式 !

另外:只能在Windows下使用,不支持 macOS。

由于都是比较老的辞典了,所以存在一些奇怪的Bug,下面简单说说。

注:均为 Windows 10 下测试,未在 Windows11下测试。

当商品は、Windows XP、Windows Vistaで動作保証をしておりますが、Windows7以降のOSには対応していません。

《講談社中日辞典 第三版》

《講談社中日辞典 第三版》:开始菜单的应用名称显示乱码

《講談社中日辞典 第三版》:点击【中日辞典】开始使用。

【更新】按钮失效

官方已经发布不再维护更新的相关通知:

『講談社中日辞典 第三版』付属CD-ROMのインターネット接続は、2021年6月30日をもちまして、終了いたしました。
長らくのご愛顧ありがとうございました。

标题栏乱码

其余功能均正常,算是可以正常使用。

《講談社 日中辞典》

结论:完全不能用

点击搜索结果中的单词完全无法正确跳转到相应的位置。

快速下载

综上:如无转制想法,只需下载講談社中日辞典.zip后,双击 Setup.exe 安装即可。

不用下载講談社日中辞典.zip,因为《講談社日中辞典》存在严重的Bug基本无法正常使用,而且有坛友分享了mdx格式:

数据提取

上面提供的下载链接中有講談社 日中辞典-数据文件-dic.zip講談社 中日辞典-数据文件-dic.zip这2个文件,疑为辞典程序的数据文件,但本人无二进制文件处理经验,故只是将其上传。

安装日中辞典软件后可以在C:\Program Files (x86)\講談社 日中辞典\Data找到一个40MB的dic.data文件,应为辞典数据来源,但是二进制文件。

安装中日辞典软件后可以在C:\Program Files (x86)\Kodansha\CJDictionary\CJ\data找到37MB左右名为dic.data的二进制文件,应该也是辞典数据来源。

2 Likes

查看二进制文件是以 789c 开头,就是使用 zlib 压缩的文件。可以写代码循环提取,也可以直接用别人写好的。Luigi Auriemma (下载 offzip 提取

offzip.zip (216.2 KB)

4 Likes

解决问题太快了:grinning: :+1:
感谢楼主采购光盘 :smile:

2 Likes

中日辞典附带的現代中国語新語辞典,是不是不存储在本地的?服务器貌似关闭了。

1 Like

应该是,C:\Program Files (x86)\Kodansha\CJDictionary\CNew\data这个路径里面只有Params.data的文件,没有dic.data文件。

还有个问题如何解决?中日辞典的图片映射关系,html路径都用的df:数字最不济得人工找对应关系。而且正文标记符号图片还缺了几十张。

程序得插入光盘才能打开,我不知道原貌。

1 Like

是哪些词条有符号图片呀,我插上光盘再看看

你稍等我整理一下

1 Like

直接用程序提取得到的是245张附图,即icon的bmp位图后方的若干个文件,这里的排列顺序就是df:数字对应的图片关系,从44号开始是附图。前方是正好37个jpg缺失,正好对应前37个编号(23号无),应该大部分是图片字,不是符号,后面六个名字特殊的可能是符号。

驼鹿0
卦1,2
虚线2
〓3
榔头4
老头儿鱼5,6
旁7
斜玉旁儿7
耳刀8,9
提10
钩11
折12
摺13
打14,15
偻16
偻〓16
喽啰16
鸡奸17
地鳖18
行院19
胼胝20
腼腆21
虺22
虺〓22
〓24
〓熰25
铮26
铮〓26
鸨27
跄跄28
白〓豚29
双喜30
双喜字30
欸31,32,33,34
欸誒31,32,33,34
呣35
姆36
打钩37

1 Like

講談社日中 shtjjh (ed._20211118).7z (17,9 MB)

講談社日中已经有比较好的mdx了,对比了一下与楼主的光盘版本完全相同

3 Likes

如何提取图片不是以md5命名而是以我给出的图片内的正确方式命名?我实在不懂这些。如果不行,只能人工一个个对校200多张图片了。

有个fpx文件内部也找不到这些图片字,提取得到的只有一张意义不明的图片:
extracted_image

导出文件时,加上参数 -a 或者 -a -1,文件会以偏移量命名,偏移量按从小到大排序,就是在光盘文件里的顺序,可能会有帮助。

1 Like

图片字可能藏在00000014.dat内,老兄知道如何解析吗?

传上来看下,我安装不了这个软件。

1 Like

00000014.7z (1.5 MB)

你发一份偏移量命名的图片上来吧,谢谢 :grin:

实在没办法提取可以从内存里读取,就是得一条条搜索一个个保存。

整理了这里提到的外字图片,如果不嫌麻烦,可以把图片换成对应的字符。
講談社中日辞典.pdf (4.8 MB)

可以提供下这2个词条的更多信息么?(比如图片附近的上下文之类的)

〓24(在原程序里搜【〓】,搜不到任何结果2333)
打14,15 (这个释义有点多,找了半天都没找到图片的位置,如果能把图片附近的文字也一起提供的话,应该能找出来)

看错文件,图片确实在 00000014.dat 里面,一会提取,文件名也是现成的,不需要校对了。如果没提取错的话。 :smile:
files.txt (2.9 KB)

00000014.dat 里面只有 38 张图片,文件名对不上图片,应该还有另外的索引文件。