离线 OCR 小工具 2024.01.06

mixivivo · 2024 年1 月 7 日 18:08

OCR软件，一般可以接触测试的，以微信OCR的准确率为最高，但是，微信OCR有两个版本，一种是本地模型识别，一种是发送到服务器api识别，识别精度高的是连线到服务器识别的（要搞监控嘛，不能马虎），但是微信靠什么机制判断使用那种识别模式，并不清楚。

其他目前开源的OCR软件，在识别汉语方面都是比较差劲的，速度慢，内置字库有限，生僻字不认识，没法准确还原格式等，那些号称用了ai的，在速度和识别率上，其实有时可能连近20年前的汉王文本王都不如，就连人人厌弃的CAJViewer，在汉字识别速度和正确率上也是比较出色的。

迄今如果想OCR中文图书，理想的选择仍然是ABBYY FineReader，速度、正确率、版式还原，以及校对功能等诸方面比较均衡，但要当心的是，新出的版本（比如16版）使用了较小的汉字字库，一些生僻字识别不出来，OCR一些大路货小说之类没什么差别，但要ocr比较专业的汉语文献时，建议用11或者12版。

但是，通用OCR在技术上实际上是已经基本解决了的问题，因为绝大多数语言没有汉语这么复杂的基本字符构成，又因为中国并不是Google、微软、Adobe、Abbyy等厂商的主要目标市场，它们对中文OCR之类也无所用心，马虎能用即可。

中文字符复杂，训练更大更好的识别模型就行了，不过，如果模型很大，计算量就很大，在手机和个人电脑上是无法（流畅）运行的，于是百度、腾讯、阿里的高精度文字识别，都是提交给厂商的服务器api识别，没有离线使用的。也许它们也有可以在高性能pc上运行的高精度OCR模型，但商家逐利，一般不会积极开源让你免费使用，开源的都是些破烂货鸡肋。

——我放上两张稍微有点挑战性的图书页面（生僻字之类），供感兴趣者测试比较。