《国語基本用例辞典》OCR文本数据

@mdictnofan 要求识别的,这本词典也是比较老了。之前因为夸克识别效果比较差,也不方便对比,现在采用了夸克来处理图像,然后配合写的新工具和paddleocr的流程成功进行了ocr和幻觉检查。现在改进工具后可以很方便的校对和制作不带格式的词典了。

处理后的图像:国語基本用例辞典.zip
链接: 百度网盘 请输入提取码 提取码: 1234

国語基本用例辞典_gemini.txt (4.0 MB)
国語基本用例辞典_paddleocr.txt (3.8 MB)

paddleocr原始数据.zip (8.8 MB)

6 Likes