OCR 小记

切图:切成以页为单位,切成以词条内容为单位。
作用:加载不等、不用找词在哪
可能的预备:二值化去除纸张背面文字、去除页眉页脚文字、提前分栏

ocr 缺点:10% 的文字需要人工矫正(不适合权威锱铢必较的词典)。原始格式难以还原(不适合格式多的文字)

  • umi-ocr
    • 优:界面简单,点点点就能批量ocr。自带多栏识别。非生僻字识别率高。
    • 劣:仅支持 Windows,标点缺少错识错码、生僻字缺、换行不准、拼音无音调。我的例子是 rapid 引擎版比 paddle 版准确率更高(虽然官网介绍 paddle 性能更好)
  • cnocr
    • 优点:py 包,多平台。
    • 缺点:不支持多栏,需提前分栏。识别普通汉字也有错。支持自定义简单训练,但不简单,教程需要付费进作者群。
  • easyocr
    • 生僻字非常优秀,但是标点非常烂,同样拼音也需要自己训练。
  • 其他未试过,尽量选可批量、开源的。
    • abbyy, Windows:
      • 可识别拼音,未试过,批量可能需要pyautogui win32 libs。
    • 微软 ocr
    • 坛友自组装的:离线 OCR 小工具 2024.01.06
      • 仅 windows,未尝试。
    • paddle ocr
      • 使用说明英文是免费的,中文要进群做问卷。。我最后试这个
3 个赞