日汉双解词典 乱码修复版 修复进度【91%】

2021.03.04 修复进度【91%】
这段时间忙着养家糊口了,暂时没有时间更新。不过一定会继续。


2020.12.27 修复进度【90%】
月末算了一下才发现,这个月改了才这么一点。


2020.11.27 修复进度【89%】
又过了1个月,这个月月初比较顺利,月末进度又慢起来了。


2020.10.27 修复进度【84%】
最近进度有点慢。


2020.09.29 修复进度【82%】


2020.09.18 修复进度【69%】
mdx数据中的大错小错实在是太多了,大大超过原来的想象。早知有这么多问题的话应该会放弃。不过一步步既然已经改了不少,那就继续吧。
说实话,我觉得这个词典不怎么样,原始数据中错误就有不少,加上收录的词只有30000,不少常用词没有收录。加上迷之东北风味翻译(台湾旺文版似乎有改),只能参考,没法作为主力使用。


2020.09.02 (当时以为快改好了)
在原来mdx的基础上,按pdf版修复了数百处处乱码和错误。
主要修改之处:

  1. 多处乱码和缺特殊字符
  2. 几处原纸质词典中的错误
  3. 拆分词头,按汉字搜索时不会出现同音词,实际比原来增补了一小部分词头

修正之处举例:

下载:
20200902
[日汉双解词典_shtjjh.mdx]

20200904
日汉双解词典_shtjjh.mdx (5.3 MB)
(还有至少几百个词条(如果不是数千条的话,没有仔细数)局部内容缺失,正在补)

PDF版(不是很清楚,谁有清楚的请分享一下)
日汉双解词典 11192239.part1.rar (31 MB)
日汉双解词典 11192239.part2.rar (31 MB)
日汉双解词典 11192239.part3.rar (31 MB)
日汉双解词典 11192239.part4.rar (25.7 MB)

mdx文件来源:
https://www.pdawiki.com/forum/thread-14383-1-1.html

数据来源考证:《日汉双解词典》 申泰海主编 吉林教育出版社
https://www.pdawiki.com/forum/thread-30497-1-1.html

乱码:数据应该是直接提取的,非ocr,但是有多处乱码。原来以为就下面帖子中说的几处,结果修改的时候发现超多。除了乱码,又发现不少缺失部分。如有发现其它错误欢迎留言。
https://www.pdawiki.com/forum/thread-35278-1-1.html

15 Likes

我几天前才发现这本词典。之前一直用小学馆和大修馆的日汉还有你校对的那个等。。。

1 Like

最后一个图(词条数:86718)
应该是coffee于200309,在这里分享的2个词典之一
只是之后取消了
现在看不到了
.

两本日语双解词典搬运 - 资源发布 / 词典资源发布 - FreeMdict 论坛
https://forum.freemdict.com/t/topic/963/2

吉林教育出版社的日汉双解词典,经对比,与pdawiki的日汉双解词典内容一致,PDA wiki考证那本日汉双解为台湾出版的绿皮旺文现代日汉双解辞典。对比吉教社版和台湾版的水,火,写真機,カメラ等词条,发现二者无论是日文原文还是翻译都之字不差,因此二者应系出自同一源文件。上海外语教育出版社的现代日汉双解词典源文件目前尚不清楚。二者与本网站的研究社和英大辞典都有个排版上的小错误,在词条解释只有一条的时候,仍会显示“1”的序号。

从序号看,他这个的排版好看多了
内容一样
也没乱码

我是否需要洗版?
哈哈

2 Likes

仔细研究了这个文件的索引,应该和我修改的来自同一来源,也做了一些修改。但是改动不大。

其中有很多类似:
ああ
@@@LINK=ああ1
ああ
@@@LINK=ああ2
这样自己指向自己的约200处。

和我修改的相比缺少的索引约30多处

类似:
エリート
@@@LINK=エリート【法椟CS=ANSI_CHARSET lite】
这样错误的索引,
还有类似:
タバコ
@@@LINK=タバコ【西tabaco】
ハイヒール
@@@LINK=ハイヒール【英high-heels】
这样虽然改过但是和书不一样的地方,约100多处。

我从中发现自己的问题约有10多处。有空我再研究一下正文。

总之,光从索引看来,我的缺10多处。而这个缺30多处,错误多达100多处(主要是外来语中é等字符没有改正)。这个文件的问题比我的要严重很多。

1 Like

你说的重复的 1 2 这些
我也手工改了
哈哈

通过和4楼的文件对比,又发现不少错误。
经过仔细对比,发现4楼的文件修复了不少的乱码。可能方法不同,和我的修复基本不重叠。参照pdf文件继续修正中。。。

刚发现这部词典的各个版本的数据中,有不少日语的 齢 字都变成了中文繁体的 齡。

1 Like

1楼发布修改后的版本,希望使用者发现错误能够留言指出。

image

感谢反馈!!

同时发现由于原书格式不对造成的提取索引错误约20条。
下图中 名・形動 被当作汉字分成了2条索引。发现别的辞典也有这种情况。可以搜索一下 , 看看能查到什么。
快照2

谢谢。
在pdf 上能看清,已改。
在 pdf 文件上看不清楚,就暂时按常用的
不过,像 板挾み 之类词语在一些辞典中 就是写作 ,有些写作 ,我觉得都可以。当然现在基本都用挟。不过我还是尊重纸质版吧。

另外又发现了一些缺字的地方:
ぎきょうしん【義・心】
こうねつひ【光・費】
さきこぼれる【咲き・れる】
すねかじり【臑・り】
てんぷら【天・羅】
なまかじり【生・り】
のういっけつ【脳・血】
はがみ【歯・み】
ひっかく【引っ・く】
みずかき【水・き】
みそしる【味・汁】
みそっかす【味・っ滓】
みそっぱ【味・っ歯】
わるあがき【悪足・き】

有些解释仅有(1)的地方其实是缺了(2)(3)。。。等的部分,太坑了。。。距离改完还早。接下来放慢速度,慢慢改。

使用中发现缺词也挺严重,比如检索"凝る",使用这本 日汉双解词典只能查到こる这一个读音,而其他大部分词典能够查到对应的三组假名——こる、こごる、しこる。

使用这本 日汉双解词典 检索”こごる”时也查不到结果,说明应该是缺了这个词

这个纸质书中就收录了一个读音。

国内引进的可能删减了部分义项 :grinning:

好的。

使用中发现使用假名查询时,很多时候只能查到一个词条,而实际上这个假名对应的有很多词条,如下图:

查询“こぼれる”只能查到一个 零れる,而查不到毀れる。反过来用“毀れる”来查的时候查不到结果。
类似的还有下面的 “いわば”

原书中也没有啊。1楼新增pdf下载。

2 Likes

解释只有半截的词条至少有上百条。
至于中文解释中缺少逗号的则至少有数百条上万条。
1c726e55152ebf63b97b95ecdb0eaab3620aee88
快照2
这部辞典收录的词语才30000,感觉有点少。

谢谢分享。
台湾现在又出新版了,但是词汇量依旧不大。

最好的入门日汉双解词典都是台湾搞的。新世纪日汉双解词典连声型都不标。

之前发现的几个问题

ぬく

I. 后声调 [0] 缺失

きょか

声调 [1] 缺失

くじける

声调错误。

感谢反馈。确实有这些问题,きょか 在原书中就缺失,暂时没补。另2项已改正。
在改 ぬく 的时候,一眼看过去我的野生日语告诉我下面红圈的地方不对吧?
快照1

这部词典越改越不爽了。不但电子版词典里小错非常多,距离改完遥遥无期。就是纸质版中也有一些东北风味的解释,比如“把食物熥软和”,“态度和形象肋脦”。让南方人查完日语词典还需再查汉语词典。

1 Like

大神辛苦啦!

这部辞典好有个性 :rofl:

说来惭愧,第1个版本是我的弃坑版本,没有改完。
第2个版本真的可以,不知道是哪位大侠的作品。

  1. 已经CSS化,方便排版。
  2. 词头方面拆分已拆分为 “くじける【挫ける】“这样形式的词头,也添加了仅假名和仅汉字的词头,扩充到了8万条,查找上方便很多。
    建议用这个版本。