分享《日汉双解学习词典（第二版）》 pdf及ocr结果

Linzertorte · 2025 年11 月 21 日 04:32

wynick27 · 2025 年11 月 21 日 06:06

我看了下，我这边索引不包括古语俳句有44698条，比你切的图多几十个词，但我这个版本切图程序有60多张对应错误，可能有分词分错的地方，我再对比一下。

wynick27 · 2025 年11 月 26 日 00:35

根据Linzertorte的图像进行了对比，查出不少错误，现在索引已经对齐，正文部分词条数44621。

这是json格式的数据文件（古语部分仍然有问题）：
日汉双解学习词典_gemini.zip (6.2 MB)

制作了图文对照查错版MDX：
链接：百度网盘请输入提取码
提取码：1234

不过原书也是有错误的，比如这里实际上乌打成了鸟

lee_tc · 2025 年11 月 26 日 00:42

感谢，旺文社双解是极好的学习词典

神农X · 2025 年11 月 26 日 01:27

其实按照这种日语原版引进版扫描的法子，还有两本词典也可以这么搞。

一本是现代日汉例解词典，就是版数差了两版（日语版是第五版，引进版基于第三版）

一本是日语口语词典

这本词典，论坛的ocr的日文版和20年引进翻译的都是同一班次，可以直接拼接。

woodcube · 2025 年11 月 26 日 01:56

口语词典日文版（初版）的文字版我在搞，就是用上面的那个mdx基础上加html标签，整体差不多搞完了，为了提高查得率这段时间一直加额外的@@@LINK

wynick27 · 2025 年11 月 26 日 01:58

这本我本来也打算文本化的，不过现在搞《新世纪日汉双解大词典》遇到很多问题，口语词典我弄完了可以看看。

神农X · 2025 年11 月 26 日 02:02

还以为没几个人注意到这本辛苦优化完善了

神农X · 2025 年11 月 26 日 02:03

重新扫描是论坛里那版还有什么别的问题吗

wynick27 · 2025 年11 月 26 日 02:06

论坛版本当时应该是没有索引情况下用其他词典索引爬的，词条不全，我想补一下数据。

woodcube · 2025 年11 月 26 日 02:20

很棒的词典。我在加跳转词条的时候看到很多有意思的说法，闲下来的时候直接阅读原书一个一个看也是很不错的

amob · 2025 年11 月 26 日 03:01

用文字版PDF转导致缺标签吧，用Logovista转换比较好。不过要转换比较麻烦。

woodcube · 2025 年11 月 26 日 03:19

文字pdf转过来自带<br>标签（下图），然后内容本身有书名号《 ①序号什么的符号，有助于结构化，就用python来加标签，而且就用到了普通的字符串方法.replace() .split() .join()等等，还有一点正则，比想象中的要简单，还可复现。

就是有时候图方便脚本随手写，后来再想加新功能（标签）、改结构的时候，不忍直视原来的脚本，只能在原有的基础上继续写

amob · 2025 年11 月 26 日 03:57

其实更大的问题是振假名缺失，原版是有的。

lee_tc · 2025 年11 月 26 日 13:10

效果非常好。就是能看到有的注音标记识别错误

wynick27 · 2025 年11 月 26 日 13:19

是的，假名标注是错误最多的部分，还有部分记号unicode没有需要单独处理，部分字形错误也需要校对。

神农X · 2025 年11 月 26 日 14:12

那个大括号里的内容是固定的，可以直接套用第八版的

EddieLi · 2025 年11 月 27 日 06:29

还是有部分图文对不上，例如：

wynick27 · 2025 年11 月 27 日 12:11

感谢提供信息，我是看每1000个词序号有没有错位来对比的，可能会漏掉局部位置互换这种情况。

wynick27 · 2025 年12 月 1 日 17:25

已修正，另外修改了一些索引，去掉了特殊符号