日本語慣用句辞典 ocr文本

東京堂出的,是对应这本书,zlib有djvu的版本,我ocr了一下,发现paddleocr在竖排年份这方面强于gemini。

https://z-library.sk/book/qDOgK0zVOX/日本語慣用句辞典.html

日本語慣用句辞典_gemini.txt (1.3 MB)
日本語慣用句辞典_paddleocr.txt (1.3 MB)

这本我是和 “日本語語感の辞典” 一样都是弄切图版本

不错,我可能以后做文字版,不过校对还是挺费时间的。

我就是懒得弄OCR还要校对,不过也没马虎乱弄切图
首先一张一张放大去杂点,去韩X文(那东西像鬼啃的,删掉),且对齐跨页的文本段落开头