日本语文型辞典(改订版)MD文件

自己提取的日本语文型辞典(改订版)文字部分,但只校对了あいだ词条,词条可以参考此书后面的目录,准确率应该能有80%~90%以上,错误的地方大部分是符号等格式或排版问题,也有一些多余的文字。
日本語文型辞典.zip (613.8 KB)

4 个赞

去年奸佞忠良做过一版图片版

这里有补档

1 个赞

想请教一下是如何做到OCR出带有md格式的(比如说识别出了标题,然后在前面添加# )。

另外一般pdf通过ocr会把换行也一起提取出来,但是楼主您分享的文件中很多不必要的换行都消失了,是如何处理的呢?

opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

1 个赞