OCR软件,一般可以接触测试的,以微信OCR的准确率为最高,但是,微信OCR有两个版本,一种是本地模型识别,一种是发送到服务器api识别,识别精度高的是连线到服务器识别的(要搞监控嘛,不能马虎),但是微信靠什么机制判断使用那种识别模式,并不清楚。
其他目前开源的OCR软件,在识别汉语方面都是比较差劲的,速度慢,内置字库有限,生僻字不认识,没法准确还原格式等,那些号称用了ai的,在速度和识别率上,其实有时可能连近20年前的汉王文本王都不如,就连人人厌弃的CAJViewer,在汉字识别速度和正确率上也是比较出色的。
迄今如果想OCR中文图书,理想的选择仍然是ABBYY FineReader,速度、正确率、版式还原,以及校对功能等诸方面比较均衡,但要当心的是,新出的版本(比如16版)使用了较小的汉字字库,一些生僻字识别不出来,OCR一些大路货小说之类没什么差别,但要ocr比较专业的汉语文献时,建议用11或者12版。
但是,通用OCR在技术上实际上是已经基本解决了的问题,因为绝大多数语言没有汉语这么复杂的基本字符构成,又因为中国并不是Google、微软、Adobe、Abbyy等厂商的主要目标市场,它们对中文OCR之类也无所用心,马虎能用即可。
中文字符复杂,训练更大更好的识别模型就行了,不过,如果模型很大,计算量就很大,在手机和个人电脑上是无法(流畅)运行的,于是百度、腾讯、阿里的高精度文字识别,都是提交给厂商的服务器api识别,没有离线使用的。也许它们也有可以在高性能pc上运行的高精度OCR模型,但商家逐利,一般不会积极开源让你免费使用,开源的都是些破烂货鸡肋。
——我放上两张稍微有点挑战性的图书页面(生僻字之类),供感兴趣者测试比较。