感谢 @amob 提供了文字版pdf,这个pdf虽然是文字版,但是cff字体没有cid数据,也就是类似epwing的外字问题,我这次尝试全程让ai写程序匹配不重复字符hash,然后ocr识别,然后再让ai写了校对工具处理这个问题,然后手动校对了5500个不重复的字符,成功还原了全部文本(此方法可以用在所有字体加密问题上)。
就像这样:
之后又用ai辅助写了css和解析脚本,全程大部分工作都是ai做的,非常快,我只花了几小时校对字体。
mdx效果:
下载地址:
XDRHSJ.css (2.2 KB)
现代日汉双解词典(修订版).mdx (5.8 MB)
json文件:
dictionary_parsed.zip (6.5 MB)
10 个赞
发现之前有些情况比如会う这种表记跟在序号后面的解析有问题,现在已经修复了,css和json也更新了。
2 个赞
诚挚感谢 wynick27的艰辛付出和热心分享。
在此有个不情之请,之前您在《讲谈社 日语大辞典 中文版》做了WORD化,帮助甚大,
看完这个帖子后,对您的PDF转化技术深感敬佩。
我手上是有[講談社 日本語大辞典 カラー]的原书和PDF版本,日常将其当读物使用,确实由于竖版和原书体积及重量不便携带,冒昧恳问是否可以将其 WORD化呢。
确实是不会转化,尝试了几次,由于竖版以及各类注音较多,乱码严重。
若是有相对较好的文档版,就可以利用 EditPLUS,对照原文手动边读边修改。
这个竖排版确实夸克转换效果很差,不过我可以试试用paddleocr和gemini来处理。但这些要准确还是要全文对比校对的,我可以帮忙ocr但目前没时间校对。
1 个赞
若是可以OCR的话,已经非常非常够用了。校对的话,我自己用笨方法一点点弄就可以!诚挚感谢!
其实讲谈社那个词典是出过epwing和ps2版的,有准确文本,甚至可以和中文版合并做成双解版本,但现在没人分享这两个版本的数据。
这个的话,我可以来提供的,可能时间要几个月,应该在本年度可以核对完。
其实我也找了很久的EPwing版本,很遗憾没有找到···
PS2的在本论坛看过,不会导出。
2 个赞
amob
10
再检查下有没有假名错误地识别为了小假名,比如ㇲ。楼主是不是只校对了汉字?