感谢 @baihai57 提供了原始文件,我用paddleocr和quark分别处理了原始图片,整理出一个docx文档,一个md文档,其中md文本包括全部原始带坐标位置的json和图片(有1万多张)。
下载地址:
通过网盘分享的文件:学研新世纪百科辞典 OCR
链接: 百度网盘 请输入提取码 提取码: 1234
感谢 @baihai57 提供了原始文件,我用paddleocr和quark分别处理了原始图片,整理出一个docx文档,一个md文档,其中md文本包括全部原始带坐标位置的json和图片(有1万多张)。
下载地址:
通过网盘分享的文件:学研新世纪百科辞典 OCR
链接: 百度网盘 请输入提取码 提取码: 1234
大佬辛苦了。1万多张图片,应该远远超出EPWING版的。虽然绝大多数是黑白图片,但是可读性和欣赏性大大增加。由衷表示感谢。
这本辞典好像有EPWING格式的,不知道好不好提取文本和图片。
epwing那个是新世紀ビジュアル大辞典 ,似乎和这个不是同一本。