東京堂出的,是对应这本书,zlib有djvu的版本,我ocr了一下,发现paddleocr在竖排年份这方面强于gemini。
https://z-library.sk/book/qDOgK0zVOX/日本語慣用句辞典.html
日本語慣用句辞典_gemini.txt (1.3 MB)
日本語慣用句辞典_paddleocr.txt (1.3 MB)
東京堂出的,是对应这本书,zlib有djvu的版本,我ocr了一下,发现paddleocr在竖排年份这方面强于gemini。
https://z-library.sk/book/qDOgK0zVOX/日本語慣用句辞典.html
日本語慣用句辞典_gemini.txt (1.3 MB)
日本語慣用句辞典_paddleocr.txt (1.3 MB)
不错,我可能以后做文字版,不过校对还是挺费时间的。
我就是懒得弄OCR还要校对,不过也没马虎乱弄切图
首先一张一张放大去杂点,去韩X文(那东西像鬼啃的,删掉),且对齐跨页的文本段落开头