这本对齐文本花了很长时间,用ai修复了很多问题,然后又手动改了一些剩下的,现在终于基本可用了。
目前进度:义项和例句基本对齐,用日文版补了很多中文版的注音,但文字只校对了不到一半(不过错误主要是来自音调符号和假名标注,其他文字错误不多。)
已知问题:词头标注符号缺失,部分粗体缺失。部分词条,义项或者例句无法对齐。
当前版本:
通过网盘分享的文件:新明解日汉双解词典 第五版
链接: 百度网盘 请输入提取码 提取码: 1234
脚本和数据:
脚本和数据.zip (11.6 MB)
这本对齐文本花了很长时间,用ai修复了很多问题,然后又手动改了一些剩下的,现在终于基本可用了。
目前进度:义项和例句基本对齐,用日文版补了很多中文版的注音,但文字只校对了不到一半(不过错误主要是来自音调符号和假名标注,其他文字错误不多。)
已知问题:词头标注符号缺失,部分粗体缺失。部分词条,义项或者例句无法对齐。
当前版本:
通过网盘分享的文件:新明解日汉双解词典 第五版
链接: 百度网盘 请输入提取码 提取码: 1234
脚本和数据:
脚本和数据.zip (11.6 MB)
这可花了楼主大侠老多时间了,无私奉献,达人
![]()
第一个问题是epwing就错了,然后多个词的链接问题也修了,还修复了很多匹配问题和重复链接问题。第三个没问题啊,如果是说多余词头的问题的话等我校对完成后统一处理。
谢谢老大,诚实正直勤奋!!!
关于第三个,我是这样理解的,作为词头前面的符号,在实际应用中基本用不到。如遇到“不定”这词,前面加了“~”,或“、”后,反而查不到这词或相关的词,造成实际查询失效,虽然有这个相关的词头存在。
感谢!这肯定花了不少时间。
多谢制作。在最后的图片中, [正体(セイタイ]和 [正体(セイタイ]跳转有误,可能还有类似问题。
这个问题已经修复了,还修复了一些其他对齐问题和错字问题。
明显好了许多,还有一半要校对啊,这可辛苦您了,请保重身体
其实前600页是之前没有应用词头修正时校对的,只校对了中文错字,可能还要单独对词头进行二校,然后汉字表记部分和其他的中日附录之类的也比较麻烦,表记部分可以和第七或者第八版比较,但这两版用的是新常用汉字表,要想完美还需要很长时间。所以目前是预览版。错字倒是问题不大,因为主要是中日字形问题,比如晚晩 黑黒之类,不仔细看都看不出来,但有些符号错是会整体影响解析的,比如有的语法栏目的<错误识别为了く就会导致语法栏匹配失败。
我已当字典使用了, 目前觉得OK。
修正,尤其是细微处,最费眼费神,有时还要求证查阅很多资料。本坛有本日汉词典也是这样一路修正过来,花了以年为单位的时间。正是有如您这样的人,我们才得以享用,不然永远是望洋兴叹。
《新明解国语辞典》是最早引进国内,知名度高,广为使用,简洁实用。主要标有声调,名词还标标注了量词(助数詞)。把中文匹配进去,可以说是锦上添花!功德无量!楼主辛苦了。