OCR 小记

匿名1664 · 2024 年5 月 27 日 17:10

切图：切成以页为单位，切成以词条内容为单位。
作用：加载不等、不用找词在哪
可能的预备：二值化去除纸张背面文字、去除页眉页脚文字、提前分栏

ocr 缺点：10% 的文字需要人工矫正（不适合权威锱铢必较的词典）。原始格式难以还原（不适合格式多的文字）

umi-ocr
- 优：界面简单，点点点就能批量ocr。自带多栏识别。非生僻字识别率高。
- 劣：仅支持 Windows，标点缺少错识错码、生僻字缺、换行不准、拼音无音调。我的例子是 rapid 引擎版比 paddle 版准确率更高（虽然官网介绍 paddle 性能更好）
cnocr
- 优点：py 包，多平台。
- 缺点：不支持多栏，需提前分栏。识别普通汉字也有错。支持自定义简单训练，但不简单，教程需要付费进作者群。
easyocr
- 生僻字非常优秀，但是标点非常烂，同样拼音也需要自己训练。
其他未试过，尽量选可批量、开源的。
- abbyy, Windows：
  - 可识别拼音，未试过，批量可能需要pyautogui win32 libs。
- 微软 ocr
- 坛友自组装的：离线 OCR 小工具 2024.01.06
  - 仅 windows，未尝试。
- paddle ocr
  - 使用说明英文是免费的，中文要进群做问卷。。我最后试这个