自己提取的日本语文型辞典(改订版)文字部分,但只校对了あいだ词条,词条可以参考此书后面的目录,准确率应该能有80%~90%以上,错误的地方大部分是符号等格式或排版问题,也有一些多余的文字。
日本語文型辞典.zip (613.8 KB)
4 个赞
去年奸佞忠良做过一版图片版
这里有补档
1 个赞
想请教一下是如何做到OCR出带有md格式的(比如说识别出了标题,然后在前面添加#
)。
另外一般pdf通过ocr会把换行也一起提取出来,但是楼主您分享的文件中很多不必要的换行都消失了,是如何处理的呢?