shtjjh
1
《日汉双解词典》乱码修复版
最初的mdx文件来路不明,据说从Stardict时期就存在,这个版本是在隔壁论坛ryuya修改的版本的基础上,参照吉林教育出版社2002年1月第2版《日汉双解词典 》的pdf文件进行修复。应该和授权台湾出版的绿皮《旺文现代日汉双解辞典》同源。
主要修复:
修复了mdx中存在的无数乱码和缺失的地方。
修复了小部分mdx和pdf中不一样的地方。
更正了pdf中一些明显的错误。
擅自脑补了极个别pdf中缺少的地方(如例句对应的中文翻译)。
2023.11.01
修改了几个错误之处和几十处链接问题,感谢刀上飛的反馈。
下载:
日汉双解词典_20231101.zip (5.0 MB)
2023.09.14
修改了个别错误之处,感谢刀上飛的反馈。有问题欢迎留言,不定期更新。
***********************************
2023.04.07 修复进度【100%】
其实上个月底已经完成,先用了几天,似乎没有大问题。
格式上参考了28楼nuclearvideocard朋友的css。
![Snap1|599x147](upload://bwZ9O3r0G0ZepBECNvVYG0F8P7n.png)
![Snap2|395x499](upload://xjM0tX2ZFFkzrGpmXVtiTwS7WN.png)
***********************************
2022.12.26 修复进度【96%】
从新冠中恢复。
***********************************
2022.10.17 修复进度【92%】
好久没有继续了。最近又开始了,慢慢来。
***********************************
2021.03.04 修复进度【91%】
这段时间忙着养家糊口了,暂时没有时间更新。不过一定会继续。
***********************************
2020.12.27 修复进度【90%】
月末算了一下才发现,这个月改了才这么一点。
***********************************
2020.11.27 修复进度【89%】
又过了1个月,这个月月初比较顺利,月末进度又慢起来了。
***********************************
2020.10.27 修复进度【84%】
最近进度有点慢。
***********************************
2020.09.29 修复进度【82%】
***********************************
2020.09.18 修复进度【69%】
mdx数据中的大错小错实在是太多了,大大超过原来的想象。早知有这么多问题的话应该会放弃。不过一步步既然已经改了不少,那就继续吧。
说实话,我觉得这个词典不怎么样,原始数据中错误就有不少,加上收录的词只有30000,不少常用词没有收录。加上迷之东北风味翻译(台湾旺文版似乎有改),只能参考,没法作为主力使用。
***********************************
2020.09.02 (当时以为快改好了)
在原来mdx的基础上,按pdf版修复了数百处处乱码和错误。
主要修改之处:
1. 多处乱码和缺特殊字符
2. 几处原纸质词典中的错误
3. 拆分词头,按汉字搜索时不会出现同音词,实际比原来增补了一小部分词头
修正之处举例:
===========================================
PDF版(不是很清楚,谁有清楚的请分享一下)
日汉双解词典 11192239.part1.rar (31 MB)
日汉双解词典 11192239.part2.rar (31 MB)
日汉双解词典 11192239.part3.rar (31 MB)
日汉双解词典 11192239.part4.rar (25.7 MB)
mdx文件来源:
数据来源考证:《日汉双解词典》 申泰海主编 吉林教育出版社
乱码:数据应该是直接提取的,非ocr,但是有多处乱码。原来以为就下面帖子中说的几处,结果修改的时候发现超多。除了乱码,又发现不少缺失部分。如有发现其它错误欢迎留言。
https://www.pdawiki.com/forum/thread-35278-1-1.html
50 Likes
shtjjh
3
我几天前才发现这本词典。之前一直用小学馆和大修馆的日汉还有你校对的那个等。。。
2 Likes
kapas
5
最后一个图(词条数:86718)
应该是coffee于200309,在这里分享的2个词典之一
只是之后取消了
现在看不到了
.
两本日语双解词典搬运 - 资源发布 / 词典资源发布 - FreeMdict 论坛
https://forum.freemdict.com/t/topic/963/2
吉林教育出版社的日汉双解词典,经对比,与pdawiki的日汉双解词典内容一致,PDA wiki考证那本日汉双解为台湾出版的绿皮旺文现代日汉双解辞典。对比吉教社版和台湾版的水,火,写真機,カメラ等词条,发现二者无论是日文原文还是翻译都之字不差,因此二者应系出自同一源文件。上海外语教育出版社的现代日汉双解词典源文件目前尚不清楚。二者与本网站的研究社和英大辞典都有个排版上的小错误,在词条解释只有一条的时候,仍会显示“1”的序号。
从序号看,他这个的排版好看多了
内容一样
也没乱码
我是否需要洗版?
哈哈
2 Likes
shtjjh
6
仔细研究了这个文件的索引,应该和我修改的来自同一来源,也做了一些修改。但是改动不大。
其中有很多类似:
ああ
@@@LINK=ああ1
ああ
@@@LINK=ああ2
这样自己指向自己的约200处。
和我修改的相比缺少的索引约30多处
类似:
エリート
@@@LINK=エリート【法椟CS=ANSI_CHARSET lite】
这样错误的索引,
还有类似:
タバコ
@@@LINK=タバコ【西tabaco】
ハイヒール
@@@LINK=ハイヒール【英high-heels】
这样虽然改过但是和书不一样的地方,约100多处。
我从中发现自己的问题约有10多处。有空我再研究一下正文。
总之,光从索引看来,我的缺10多处。而这个缺30多处,错误多达100多处(主要是外来语中é等字符没有改正)。这个文件的问题比我的要严重很多。
1 Like
shtjjh
8
通过和4楼的文件对比,又发现不少错误。
经过仔细对比,发现4楼的文件修复了不少的乱码。可能方法不同,和我的修复基本不重叠。参照pdf文件继续修正中。。。
刚发现这部词典的各个版本的数据中,有不少日语的 齢 字都变成了中文繁体的 齡。
2 Likes
shtjjh
9
1楼发布修改后的版本,希望使用者发现错误能够留言指出。
1 Like
shtjjh
11
感谢反馈!!
同时发现由于原书格式不对造成的提取索引错误约20条。
下图中 名・形動 被当作汉字分成了2条索引。发现别的辞典也有这种情况。可以搜索一下 名 , 看看能查到什么。
1 Like
shtjjh
13
谢谢。
遲 在pdf 上能看清,已改。
纖 和 繊 在 pdf 文件上看不清楚,就暂时按常用的 繊。
不过,像 板挾み 之类词语在一些辞典中 就是写作 挾 ,有些写作 挟,我觉得都可以。当然现在基本都用挟。不过我还是尊重纸质版吧。
另外又发现了一些缺字的地方:
ぎきょうしん【義・心】
こうねつひ【光・費】
さきこぼれる【咲き・れる】
すねかじり【臑・り】
てんぷら【天・羅】
なまかじり【生・り】
のういっけつ【脳・血】
はがみ【歯・み】
ひっかく【引っ・く】
みずかき【水・き】
みそしる【味・汁】
みそっかす【味・っ滓】
みそっぱ【味・っ歯】
わるあがき【悪足・き】
2 Likes
shtjjh
14
有些解释仅有(1)的地方其实是缺了(2)(3)。。。等的部分,太坑了。。。距离改完还早。接下来放慢速度,慢慢改。
1 Like
使用中发现缺词也挺严重,比如检索"凝る",使用这本 日汉双解词典只能查到こる这一个读音,而其他大部分词典能够查到对应的三组假名——こる、こごる、しこる。
使用这本 日汉双解词典 检索”こごる”时也查不到结果,说明应该是缺了这个词
好的。
使用中发现使用假名查询时,很多时候只能查到一个词条,而实际上这个假名对应的有很多词条,如下图:
查询“こぼれる”只能查到一个 零れる,而查不到毀れる。反过来用“毀れる”来查的时候查不到结果。
类似的还有下面的 “いわば”
shtjjh
21
解释只有半截的词条至少有上百条。
至于中文解释中缺少逗号的则至少有数百条上万条。
这部辞典收录的词语才30000,感觉有点少。
谢谢分享。
台湾现在又出新版了,但是词汇量依旧不大。
最好的入门日汉双解词典都是台湾搞的。新世纪日汉双解词典连声型都不标。
之前发现的几个问题
ぬく
I.
后声调 [0]
缺失
きょか
声调 [1]
缺失
くじける
声调错误。
1 Like
shtjjh
23
感谢反馈。确实有这些问题,きょか 在原书中就缺失,暂时没补。另2项已改正。
在改 ぬく 的时候,一眼看过去我的野生日语告诉我下面红圈的地方不对吧?
这部词典越改越不爽了。不但电子版词典里小错非常多,距离改完遥遥无期。就是纸质版中也有一些东北风味的解释,比如“把食物熥软和”,“态度和形象肋脦”。让南方人查完日语词典还需再查汉语词典。
3 Likes
说来惭愧,第1个版本是我的弃坑版本,没有改完。
第2个版本真的可以,不知道是哪位大侠的作品。
- 已经CSS化,方便排版。
- 词头方面拆分已拆分为 “くじける【挫ける】“这样形式的词头,也添加了仅假名和仅汉字的词头,扩充到了8万条,查找上方便很多。
建议用这个版本。