分享《日汉双解学习词典(第二版)》 pdf及ocr结果

我看了下,我这边索引不包括古语俳句有44698条,比你切的图多几十个词,但我这个版本切图程序有60多张对应错误,可能有分词分错的地方,我再对比一下。

根据Linzertorte的图像进行了对比,查出不少错误,现在索引已经对齐,正文部分词条数44621。

这是json格式的数据文件(古语部分仍然有问题):
日汉双解学习词典_gemini.zip (6.2 MB)

制作了图文对照查错版MDX:
链接:百度网盘 请输入提取码
提取码:1234

不过原书也是有错误的,比如这里实际上乌打成了鸟

4 个赞

感谢,旺文社双解是极好的学习词典

1 个赞

其实按照这种日语原版:plus:引进版扫描的法子,还有两本词典也可以这么搞。

一本是现代日汉例解词典,就是版数差了两版(日语版是第五版,引进版基于第三版)

一本是日语口语词典

这本词典,论坛的ocr的日文版和20年引进翻译的都是同一班次,可以直接拼接。

口语词典日文版(初版)的文字版我在搞,就是用上面的那个mdx基础上加html标签,整体差不多搞完了,为了提高查得率这段时间一直加额外的@@@LINK

1 个赞

这本我本来也打算文本化的,不过现在搞《新世纪日汉双解大词典》遇到很多问题,口语词典我弄完了可以看看。

还以为没几个人注意到这本:joy:辛苦优化完善了

重新扫描是论坛里那版还有什么别的问题吗

论坛版本当时应该是没有索引情况下用其他词典索引爬的,词条不全,我想补一下数据。

很棒的词典。我在加跳转词条的时候看到很多有意思的说法,闲下来的时候直接阅读原书一个一个看也是很不错的

用文字版PDF转导致缺标签吧,用Logovista转换比较好。不过要转换比较麻烦。

文字pdf转过来自带<br>标签(下图),然后内容本身有书名号 ①序号什么的符号,有助于结构化,就用python来加标签,而且就用到了普通的字符串方法.replace() .split() .join()等等,还有一点正则,比想象中的要简单,还可复现。

就是有时候图方便脚本随手写,后来再想加新功能(标签)、改结构的时候,不忍直视原来的脚本,只能在原有的基础上继续写 :joy:

其实更大的问题是振假名缺失,原版是有的。

1 个赞


效果非常好。就是能看到有的注音标记识别错误

是的,假名标注是错误最多的部分,还有部分记号unicode没有需要单独处理,部分字形错误也需要校对。

1 个赞

那个大括号里的内容是固定的,可以直接套用第八版的

还是有部分图文对不上,例如:


感谢提供信息,我是看每1000个词序号有没有错位来对比的,可能会漏掉局部位置互换这种情况。

已修正,另外修改了一些索引,去掉了特殊符号

日汉双解学习词典.mdx (5.9 MB)

2 个赞