15万例文・成句現代国語用例辞典 扫描图片

这本书是《国語基本用例辞典》的后继,是一本侧重例句的辞典,标题就写了包含15万例文・成句,这个也在后续ocr计划里,不过仍然有furigana的问题。

下载:
通过网盘分享的文件:15万例文・成句現代国語用例辞典.zip
链接: 百度网盘 请输入提取码 提取码: 1234

6 Likes

恭候楼主的OCR

感谢w大分享!

感觉可以忽略furigana,这样制作词典会省力一些。如果查询或者阅读的时候需要确认读音,可以双开词典程序或者用另一个词典程序查找。

是的,ai加furigana问题就就是不稳定,第一页有的是对的,然后可能有的词就乱加,不考虑furigana就检查下错字就可以,一页可能就几个,一分钟能校对好几页,但要是校对furigana就要逐行确认,几分钟才能校对一页,基本上速度差距有10倍。

OCR结果:
現代国語用例辞典_gemini.txt (9.8 MB)
現代国語用例辞典_paddleocr.txt (8.7 MB)
現代国語用例辞典_paddleocr.7z (4.6 MB)

1 Like

去掉了furigana(振り仮名),看着确实清新醒目。

依旧搞了一个二值化的 pdf:

链接:百度网盘 请输入提取码
提取码:rqrz

2 Likes

二值化PDF效果不错,把楼主的另一部图片词典也二值化一下吧。感谢楼主的分享。
小学館 例解学習類語辞典

二值化就是只有黑白两色,不适合这种双色印刷的

好的,谢谢回复。