《现代日汉双解词典 修订版》 文字版

感谢 @amob 提供了文字版pdf,这个pdf虽然是文字版,但是cff字体没有cid数据,也就是类似epwing的外字问题,我这次尝试全程让ai写程序匹配不重复字符hash,然后ocr识别,然后再让ai写了校对工具处理这个问题,然后手动校对了5500个不重复的字符,成功还原了全部文本(此方法可以用在所有字体加密问题上)。
就像这样:

之后又用ai辅助写了css和解析脚本,全程大部分工作都是ai做的,非常快,我只花了几小时校对字体。
mdx效果:



下载地址:
XDRHSJ.css (2.2 KB)
现代日汉双解词典(修订版).mdx (5.8 MB)

json文件:
dictionary_parsed.zip (6.5 MB)

10 个赞

校对过程中发现了原词典多个错误,包括日文中使用中文字形,打字错误等,我确定有错的都进行了修正,混用新旧字形问题也存在,没有修改保留词典原貌。

日语用简体字形问题





image











image



image
image

混用旧字形或异体字





image
image
image

字形错误问题

image
image
image
image
image
image

1 个赞

谢谢大佬,感恩

发现之前有些情况比如会う这种表记跟在序号后面的解析有问题,现在已经修复了,css和json也更新了。

2 个赞

诚挚感谢 wynick27的艰辛付出和热心分享。
在此有个不情之请,之前您在《讲谈社 日语大辞典 中文版》做了WORD化,帮助甚大,
看完这个帖子后,对您的PDF转化技术深感敬佩。
我手上是有[講談社 日本語大辞典 カラー]的原书和PDF版本,日常将其当读物使用,确实由于竖版和原书体积及重量不便携带,冒昧恳问是否可以将其 WORD化呢。
确实是不会转化,尝试了几次,由于竖版以及各类注音较多,乱码严重。
若是有相对较好的文档版,就可以利用 EditPLUS,对照原文手动边读边修改。

这个竖排版确实夸克转换效果很差,不过我可以试试用paddleocr和gemini来处理。但这些要准确还是要全文对比校对的,我可以帮忙ocr但目前没时间校对。

1 个赞

若是可以OCR的话,已经非常非常够用了。校对的话,我自己用笨方法一点点弄就可以!诚挚感谢!

其实讲谈社那个词典是出过epwing和ps2版的,有准确文本,甚至可以和中文版合并做成双解版本,但现在没人分享这两个版本的数据。

这个的话,我可以来提供的,可能时间要几个月,应该在本年度可以核对完。
其实我也找了很久的EPwing版本,很遗憾没有找到···

PS2的在本论坛看过,不会导出。

2 个赞

再检查下有没有假名错误地识别为了小假名,比如ㇲ。楼主是不是只校对了汉字?