我看了下,我这边索引不包括古语俳句有44698条,比你切的图多几十个词,但我这个版本切图程序有60多张对应错误,可能有分词分错的地方,我再对比一下。
根据Linzertorte的图像进行了对比,查出不少错误,现在索引已经对齐,正文部分词条数44621。
这是json格式的数据文件(古语部分仍然有问题):
日汉双解学习词典_gemini.zip (6.2 MB)
制作了图文对照查错版MDX:
链接:百度网盘 请输入提取码
提取码:1234
不过原书也是有错误的,比如这里实际上乌打成了鸟
感谢,旺文社双解是极好的学习词典
其实按照这种日语原版
引进版扫描的法子,还有两本词典也可以这么搞。
一本是现代日汉例解词典,就是版数差了两版(日语版是第五版,引进版基于第三版)
一本是日语口语词典
这本词典,论坛的ocr的日文版和20年引进翻译的都是同一班次,可以直接拼接。
这本我本来也打算文本化的,不过现在搞《新世纪日汉双解大词典》遇到很多问题,口语词典我弄完了可以看看。
还以为没几个人注意到这本
辛苦优化完善了
重新扫描是论坛里那版还有什么别的问题吗
论坛版本当时应该是没有索引情况下用其他词典索引爬的,词条不全,我想补一下数据。
很棒的词典。我在加跳转词条的时候看到很多有意思的说法,闲下来的时候直接阅读原书一个一个看也是很不错的
用文字版PDF转导致缺标签吧,用Logovista转换比较好。不过要转换比较麻烦。
文字pdf转过来自带<br>标签(下图),然后内容本身有书名号《 ①序号什么的符号,有助于结构化,就用python来加标签,而且就用到了普通的字符串方法.replace() .split() .join()等等,还有一点正则,比想象中的要简单,还可复现。
就是有时候图方便脚本随手写,后来再想加新功能(标签)、改结构的时候,不忍直视原来的脚本,只能在原有的基础上继续写 ![]()
其实更大的问题是振假名缺失,原版是有的。
是的,假名标注是错误最多的部分,还有部分记号unicode没有需要单独处理,部分字形错误也需要校对。
那个大括号里的内容是固定的,可以直接套用第八版的
感谢提供信息,我是看每1000个词序号有没有错位来对比的,可能会漏掉局部位置互换这种情况。








