《日汉大辞典》OCR文本

现在已经有了ps2版原版文本,所以我又用gemini和paddleocr对文本进行了ocr,方便进行下一步制作

日汉大辞典_quark.zip (10.6 MB)
日汉大辞典_gemini.zip (10.3 MB)

3 Likes

致敬 wynick27,真的是要出《The Great Japanese 講談社カラー版》的双语MDX吗?心情特别激动···特别期待···(因为不懂如何制作,有些坐享其成的不安····)

是的,不过不会很快,因为中文版需要校对,这个内容特别多非常费时间,日文版还需要处理外字问题。我还打算匹配原书的彩色图片,所以可能今年都做不完。我准备优先制作新明解之类的简单一些的。

了解!若是要将原书中的彩色图片都加进去的话,那肯定是绝佳了!
中文版的OCR我看了之前的版本,确实很多词条识别不是很准确···
既然今年不会退出,那我也贡献一份力量,
中文的我来核对,我不懂代码,只会用EDIT核对···


这是逐条核对的TXT文档的例子···
目前只会这种简单格式的···

我之前专门写过校对工具,是多版本对照校对的:


好羡慕,我的方法很笨···

image

paddleocr也识别完成了,我对比才发现中文版把古语例句都删除了,愛敬这个更是词条都没有了。

日汉大辞典_paddleocr.7z
链接: 百度网盘 请输入提取码 提取码: 1234

2 Likes

貌似也没有会翻译古语例句的日汉词典?