这本词典之前有电子版资源,这个电子版虽然是亚马逊做的,但是有很多错字,内容也有和书不同的地方,感谢 @amob 提供了文字版pdf版本和音频,还有之前 @kacvanime 制作的epub修复版。
这个文字版pdf还是很多字体没有cid数据,但有cid的数据也有映射完全错误的,把日文字体映射成了中文,这也解释了为什么官方版本会有错字。
实际上因为字体原因pdf也有部分错字,这就是用非标准编码带来的问题。
甚至个别文字和符号这个pdf还转成了图形处理,我用曲线hash法建立映射,然后改了校对工具手动把没有cid的和cid错误的,还有图形部分重新校对得到较为正确的版本,但pdf插入furigana存在大量错误。又和epub版本对比进行了furigana修复,顺便发现一些其他错误。
此后让ai辅助进行了音频匹配和切分,对于无法切分的错误条目又让ai写了音频校对工具来处理,ai可以写一些一次性工具,节省不少时间。
最后形成了现在的完整版本,可能还有个别错字和音频匹配问题只能发现后再修了。
现在效果:
这本词典配音很不错,而且2/3的词条都有配音,包括口语和书面都用的常用词,其他使用频率低的没有配音,提供了原始json文件和生成mdx的脚本,根据这个做anki包也很方便。
通过网盘分享的文件:日语常用惯用句分类学习辞典
链接: 百度网盘 请输入提取码 提取码: 1234












