新明解日汉双解辞典 mdx 预览版

这本对齐文本花了很长时间,用ai修复了很多问题,然后又手动改了一些剩下的,现在终于基本可用了。
目前进度:义项和例句基本对齐,用日文版补了很多中文版的注音,但文字只校对了不到一半(不过错误主要是来自音调符号和假名标注,其他文字错误不多。)
已知问题:词头标注符号缺失,部分粗体缺失。部分词条,义项或者例句无法对齐。

当前版本:
通过网盘分享的文件:新明解日汉双解词典 第五版
链接: 百度网盘 请输入提取码 提取码: 1234

脚本和数据:
脚本和数据.zip (11.6 MB)

这可花了楼主大侠老多时间了,无私奉献,达人 :+1: :+1: :+1:



第二图末社支社链接要修下
指个小小瑕疵,方便您下次有空时调整

第一个问题是epwing就错了,然后多个词的链接问题也修了,还修复了很多匹配问题和重复链接问题。第三个没问题啊,如果是说多余词头的问题的话等我校对完成后统一处理。

谢谢老大,诚实正直勤奋!!!
关于第三个,我是这样理解的,作为词头前面的符号,在实际应用中基本用不到。如遇到“不定”这词,前面加了“~”,或“、”后,反而查不到这词或相关的词,造成实际查询失效,虽然有这个相关的词头存在。

是的,这个词头是多余的,是中文版引入的,我校对完后会处理。不过这个不影响查询,现在老少不定和 ろうしょうふじょう都能搜到这个词。

感谢!这肯定花了不少时间。

修复大量问题,包括外字,子词条,链接匹配等问题。

现在这个最复杂的词条也能匹配了:

多谢制作。在最后的图片中, [正体(セイタイ]和 [正体(セイタイ]跳转有误,可能还有类似问题。

这个问题已经修复了,还修复了一些其他对齐问题和错字问题。

不好意思,貌似还有些要调整。


再次更新,多余词头问题已经修复了,现在只有23万多词头了。

然后发现的其他匹配问题,重复问题也修复了,文本校对至1200页。

明显好了许多,还有一半要校对啊,这可辛苦您了,请保重身体

其实前600页是之前没有应用词头修正时校对的,只校对了中文错字,可能还要单独对词头进行二校,然后汉字表记部分和其他的中日附录之类的也比较麻烦,表记部分可以和第七或者第八版比较,但这两版用的是新常用汉字表,要想完美还需要很长时间。所以目前是预览版。错字倒是问题不大,因为主要是中日字形问题,比如晚晩 黑黒之类,不仔细看都看不出来,但有些符号错是会整体影响解析的,比如有的语法栏目的<错误识别为了く就会导致语法栏匹配失败。

我已当字典使用了, 目前觉得OK。
修正,尤其是细微处,最费眼费神,有时还要求证查阅很多资料。本坛有本日汉词典也是这样一路修正过来,花了以年为单位的时间。正是有如您这样的人,我们才得以享用,不然永远是望洋兴叹。

《新明解国语辞典》是最早引进国内,知名度高,广为使用,简洁实用。主要标有声调,名词还标标注了量词(助数詞)。把中文匹配进去,可以说是锦上添花!功德无量!楼主辛苦了。