《てにをは辞典》和《てにをは連想表現辞典》ocr文本数据

@mdictnofan 的要求OCR了这两本日语词典,由于夸克对竖排文本支持不是很好,重新写了一个用paddleocr来识别的方法。不过目前仍然不太完美,gemini经常不服从指令乱改阅读顺序。 此外てにをは連想表現辞典仍然存在缺页暂时无法补齐。

对应的是这两本

連想表現辞典_paddleocr.txt (7.2 MB)
てにをは_paddleocr.txt (10.4 MB)
てにをは連想表現辞典_gemini.txt (7.6 MB)
てにをは_gemini.txt (10.5 MB)

哪里找到的pdf?

是我根据mdictnofan扫描和拍的图片整合的,现在只有散图片,还有一本是不完整的。