切图:切成以页为单位,切成以词条内容为单位。
作用:加载不等、不用找词在哪
可能的预备:二值化去除纸张背面文字、去除页眉页脚文字、提前分栏
ocr 缺点:10% 的文字需要人工矫正(不适合权威锱铢必较的词典)。原始格式难以还原(不适合格式多的文字)
- umi-ocr
- 优:界面简单,点点点就能批量ocr。自带多栏识别。非生僻字识别率高。
- 劣:仅支持 Windows,标点缺少错识错码、生僻字缺、换行不准、拼音无音调。我的例子是 rapid 引擎版比 paddle 版准确率更高(虽然官网介绍 paddle 性能更好)
- cnocr
- 优点:py 包,多平台。
- 缺点:不支持多栏,需提前分栏。识别普通汉字也有错。支持自定义简单训练,但不简单,教程需要付费进作者群。
- easyocr
- 生僻字非常优秀,但是标点非常烂,同样拼音也需要自己训练。
- 其他未试过,尽量选可批量、开源的。
- abbyy, Windows:
- 可识别拼音,未试过,批量可能需要pyautogui win32 libs。
- 微软 ocr
- 坛友自组装的:离线 OCR 小工具 2024.01.06
- 仅 windows,未尝试。
- paddle ocr
- 使用说明英文是免费的,中文要进群做问卷。。我最后试这个
- abbyy, Windows: