中英文混合高精度 OCR 识别, 百度 AI 文字识别(高精度), 远高于 abbyy

废话少说, 先看效果, 打开百度 ai 的开发首页, 拉到下面有个功能演示模块, 可以上传本地图片让它识别看看

最近在 iPad 上入了一款专门针对国内扫描版 PDF 的阅读笔记软件 Marginnote3
发现他的另外的 pro 付费功能的 ocr 文字在线矫正识别用的是百度通用文字识别 (软件自带基本的文字识别是 abbyy 的引擎)

然后发现这个百度的中英文 ocr 识别准确度惊人的高, 基本上只有个别逗号句点和偏僻的符号的识别可能会出些小偏差, 大部分时候, 基本全对
然后就顺藤摸瓜去百度的开发者网站去看, 发现百度提供了各种文字 ocr 识别的 API, 并且看看他的入门教程, 很简单就能上手
可惜, 据说他的 ocr 识别的 API 大半年前还基本上约等于免费 (普通识别每天5万次, 高精度的每天500次免费), 不过现在开始大力收费高精度的每月只有 1000 次免费额度, 然后每万次收费268元 (相对于阿里和腾讯还略便宜些)

当发现有约等于100%的识别精度的 ocr 时, 就突然想把一些经典的权威的扫描版的好书给它文字化了
但是这收费和每月只有1000次的限制还是让我抓心挠肝的, 各种寻找替代品, 最终发现那些开源的可以本地化使用的 ocr 引擎(比如飞桨, pearocr) 其中英文混合识别能力终究还是比百度这个在线高精度略逊一筹, 要知道大篇幅的 ocr, 识别精度稍差那矫正就要花上几何级递增的精力

正在有些感叹没赶上半年前的好时候的时候, 发现百度有个双11优惠, 新人可以1元买个1万次的高精度识别包, 好吧, 1万次相当于1万张图片识别了, 再加上每月1000次的免费额度, 短期内应该可以满足了

有 ocr 高精度识别需要的朋友可以趁这个时候花1元钱撸一把
就在这个网站首页上半部分有一行黄色醒目文字提醒1元1万次
绝非推广, 各位兄弟有备无患吧

拿下这1万次然后有机会大家可以利用这个合砍他几大本好书岂不快哉

1 Like

这个怎么用呢 有点懵

1 Like

估计要二次开发才能用,就是要借助别人的软件壳子,填自己买的百度OCR 识别用户号码。

其实非常简单
只要你能在电脑上装起个 python 的 IDE,跑起来个 hello word
就能根据百度提供的简易教程,靠复制粘贴几下子,就能跑起来

刚试了个中日英的,日文的假名基本识别不了,看了下也没有语言设置。

可以设置语言参数的
params = {“image”:img, “language_type”:“auto_detect”}
如果不设置, 默认的是 CHN_ENG

1 Like

谢谢回复。在测试画面上没有,这个是使用API上用的?

对, API 调用中使用
如果你会一点点 Python 甚至只要能把 Python 开发环境装到电脑上跑起来, 就能根据下面的教程用起来了
这是教程, 整个过程不到5分钟
https://abcxueyuan.baidu.com/#/play_video?id=15431&courseId=15431&mediaId=mda-mhsry0npuypfzahk&videoId=4539&sectionId=15684&type=免费课程&showCoursePurchaseStatus=false

1 Like

可惜啊,现在没那么多次数了,我有接口,也有对应的软件,需要请回复。给您软件。

请求分享一下软件,感谢!

是 ocr3000 吗 :grin:

试成功了用JAP,开始用 “language_type”:“auto_detect”,什么也没有返回。
精度很不错,和Abbyy 15 OCR比,汉语拼音识别度高的,但结果是Json格式,如何和原来的文本对比,人工的工作也不少。
如果要自己做个APP,加入这个应用,真的省很多功夫。

谢谢你的推荐,是个好东西。

的确只返回识别的字, 顶多还能带上正确率以及分段
不能像 abbyy 那样导出带标签的 html, 也不能导出带着原文本字体样式和文本结构的 doc
要是能二者结合就好了

不过如何想在自己的APP里带OCR功能,就不用自己开发了,真的很方便,估计接下去,词典笔之类的产品看来危险了。

也使我想到,刚看到Apple的Live Text功能时,真的称奇,Response那个快(应当是使用CPU内置算法),同时在图形层上,如同放上文本层一样,让用户有文本的选择功能,这设计真的是巧夺天工。可惜到现在为止还不支持日文,更加谈不上中日英混排了。

期待百度或者中国的第三方企业早日推出类似abbyy的软件或者Live Text的软件。



上面这两幅图,按照文本的类型可以分成五类:
1.正文
2.引文
3.引文出处
4.注释
5.页眉页脚页码
上述五个部分字体、字号、格式有所不同。我认为在OCR时,应该根据字体、字号、格式等字体和段落上面的不同,自动区分文本的类型。这样做的好处是:
1.可以批量编辑同类别的文本的格式;
2.文本格式改变后页码必然发生变化,这时候就要求注释所在的位置必须跟随原文位置而变。
因此必须对原文文本的类别进行辨识

已经有成品了,千百OCR。我也有百度接口。这东西还是可以的。

其实不是 CPU,苹果的 SoC 有一个专门的 Neural Engine(直译过来是神经系统引擎),就是专门处理机器学习/深度学习/人工智能任务的。
高通骁龙提供的 SoC 也有类似的模块,官方称之为「AI 引擎」,按道理来说安卓也能这么做。

1 Like

这根本不是普通的 OCR。至少,短期内以低成本根本实现不了。
会按照文本格式、字体识别的 OCR,目前应该还不存在能直接使用的,必须专门定制。

有现成的:天若OCR,百度的文字识别效果确实不错!

这些都是只能导出ocr文本。不知道目前能够按原文排版格式生成ocr pdf的软件除了abbyy,还有哪个效果比较好的呢?