日汉双解词典 乱码修复版 修复进度【69%】

2020.09.18 修复进度【69%】
mdx数据中的大错小错实在是太多了,大大超过原来的想象。早知有这么多问题的话应该会放弃。不过一步步既然已经改了不少,那就继续吧。
说实话,我觉得这个词典不怎么样,原始数据中错误就有不少,加上收录的词只有30000,不少常用词没有收录。加上迷之东北风味翻译(台湾旺文版似乎有改),只能参考,没法作为主力使用。


2020.09.02 (当时以为快改好了)
在原来mdx的基础上,按pdf版修复了数百处处乱码和错误。
主要修改之处:

  1. 多处乱码和缺特殊字符
  2. 几处原纸质词典中的错误
  3. 拆分词头,按汉字搜索时不会出现同音词,实际比原来增补了一小部分词头

修正之处举例:

下载:
20200902
[日汉双解词典_shtjjh.mdx]

20200904
日汉双解词典_shtjjh.mdx (5.3 MB)
(还有至少80个词条局部内容缺失,正在补)

PDF版(不是很清楚,谁有清楚的请分享一下)
日汉双解词典 11192239.part1.rar (31 MB)
日汉双解词典 11192239.part2.rar (31 MB)
日汉双解词典 11192239.part3.rar (31 MB)
日汉双解词典 11192239.part4.rar (25.7 MB)

mdx文件来源:

数据来源考证:《日汉双解词典》 申泰海主编 吉林教育出版社

乱码:数据应该是直接提取的,非ocr,但是有多处乱码。原来以为就下面帖子中说的几处,结果修改的时候发现超多。除了乱码,又发现不少缺失部分。如有发现其它错误欢迎留言。

8 Likes

总算有人想整理了…
为了弄新世纪,我都忍住当没看见…

我几天前才发现这本词典。之前一直用小学馆和大修馆的日汉还有你校对的那个等。。。

另我还收到此书的另一版本,可能只是排版不同(不确定)

依下面的图片内容,查 “うかがう”
https://www.pdawiki.com/forum/thread-30497-1-1.html

你刚修好的版本(词条数:86552)

另一版本(词条数:86718)

有兴趣比对的可以拿取
0902.rar (5.0 MB)

最后一个图(词条数:86718)
应该是coffee于200309,在这里分享的2个词典之一
只是之后取消了
现在看不到了
.

两本日语双解词典搬运 - 资源发布 / 词典资源发布 - FreeMdict 论坛
https://forum.freemdict.com/t/topic/963/2

吉林教育出版社的日汉双解词典,经对比,与pdawiki的日汉双解词典内容一致,PDA wiki考证那本日汉双解为台湾出版的绿皮旺文现代日汉双解辞典。对比吉教社版和台湾版的水,火,写真機,カメラ等词条,发现二者无论是日文原文还是翻译都之字不差,因此二者应系出自同一源文件。上海外语教育出版社的现代日汉双解词典源文件目前尚不清楚。二者与本网站的研究社和英大辞典都有个排版上的小错误,在词条解释只有一条的时候,仍会显示“1”的序号。

从序号看,他这个的排版好看多了
内容一样
也没乱码

我是否需要洗版?
哈哈

仔细研究了这个文件的索引,应该和我修改的来自同一来源,也做了一些修改。但是改动不大。

其中有很多类似:
ああ
@@@LINK=ああ1
ああ
@@@LINK=ああ2
这样自己指向自己的约200处。

和我修改的相比缺少的索引约30多处

类似:
エリート
@@@LINK=エリート【法椟CS=ANSI_CHARSET lite】
这样错误的索引,
还有类似:
タバコ
@@@LINK=タバコ【西tabaco】
ハイヒール
@@@LINK=ハイヒール【英high-heels】
这样虽然改过但是和书不一样的地方,约100多处。

我从中发现自己的问题约有10多处。有空我再研究一下正文。

总之,光从索引看来,我的缺10多处。而这个缺30多处,错误多达100多处(主要是外来语中é等字符没有改正)。这个文件的问题比我的要严重很多。

你说的重复的 1 2 这些
我也手工改了
哈哈

通过和4楼的文件对比,又发现不少错误。
经过仔细对比,发现4楼的文件修复了不少的乱码。可能方法不同,和我的修复基本不重叠。参照pdf文件继续修正中。。。

刚发现这部词典的各个版本的数据中,有不少日语的 齢 字都变成了中文繁体的 齡。

1 Like

1楼发布修改后的版本,希望使用者发现错误能够留言指出。

image

我用新世纪的错字中拿几个来查这本,
发现以下日文里有的要改

遲 -> 遅
纖 -> 繊
挾 -> 挟

感谢反馈!!

同时发现由于原书格式不对造成的提取索引错误约20条。
下图中 名・形動 被当作汉字分成了2条索引。发现别的辞典也有这种情况。可以搜索一下 , 看看能查到什么。
快照2

新世纪的 “名词” 基本上都没显示,所以这方面的问题我还没遇到
关于你这问题,你这本我是发现以下的词条可能有问题

おざなり【名・形動】
おさらい【名・他サ】
ぎざぎざ【名・形動・自サ】
そっぽ【名】
たがね【名】
ざっくばらん【形動】
すれすれ【形動】
おっかなびっくり【副】
かえって【副】
さばさば【副・自サ】
じっくり【副】
しょっちゅう【副】
ふと【副】
よもや【副】
より【副】

另,以下似乎有误

类似的还有
あい【相】
あしぶみ【足踏み】
あじわう【味わう】
い【意】
いさん【遺産】
いちもん【一文】
いっけつ【一決】
いんぎん【慇懃】

好多,不列了,请用正则查找

Screenshot_3

1 Like

谢谢。
在pdf 上能看清,已改。
在 pdf 文件上看不清楚,就暂时按常用的
不过,像 板挾み 之类词语在一些辞典中 就是写作 ,有些写作 ,我觉得都可以。当然现在基本都用挟。不过我还是尊重纸质版吧。

另外又发现了一些缺字的地方:
ぎきょうしん【義・心】
こうねつひ【光・費】
さきこぼれる【咲き・れる】
すねかじり【臑・り】
てんぷら【天・羅】
なまかじり【生・り】
のういっけつ【脳・血】
はがみ【歯・み】
ひっかく【引っ・く】
みずかき【水・き】
みそしる【味・汁】
みそっかす【味・っ滓】
みそっぱ【味・っ歯】
わるあがき【悪足・き】

有些解释仅有(1)的地方其实是缺了(2)(3)。。。等的部分,太坑了。。。距离改完还早。接下来放慢速度,慢慢改。

我没有这本书,也没有 pdf
这部分的完善就靠你了 :grinning:

使用中发现缺词也挺严重,比如检索"凝る",使用这本 日汉双解词典只能查到こる这一个读音,而其他大部分词典能够查到对应的三组假名——こる、こごる、しこる。

使用这本 日汉双解词典 检索”こごる”时也查不到结果,说明应该是缺了这个词

这个纸质书中就收录了一个读音。

国内引进的可能删减了部分义项 :grinning:

好的。

使用中发现使用假名查询时,很多时候只能查到一个词条,而实际上这个假名对应的有很多词条,如下图:

查询“こぼれる”只能查到一个 零れる,而查不到毀れる。反过来用“毀れる”来查的时候查不到结果。
类似的还有下面的 “いわば”

原书中也没有啊。1楼新增pdf下载。

1 Like