用过的前辈们请聊聊这几个ocr软件的识别率:针对简体中文或中英文,abbyy,万兴,天若等。

最近有一些pdf文件(小的十几页,大的几百页上千页)需要做ocr后以后期进行检索和复制文字。
想找一个识别率高的ocr软件。
以下几种OCR软件比较容易找到,论坛也有不少人对pdf处理和ocr有丰富经验,
求教一下大家的使用体验和感受

1,abbyy 15或16(ABBYY finereader 15 或ABBYY finereader 16)
2,万兴pdf(这个好像还有2个 名字,wonderpdf pdfelement),现在有10.1.5版本
3,天若ocr
4,adobe acrobat 2022或2023

抛砖引玉,以上的4种,天若ocr没接触过。
abbyy 15和abbyy16都用过,16比15在OCR上明显提升。
万兴pdf用过7.6.7版本的ocr功能,简中pdf书籍识别很不错。
adobe acrobat 2022和2023的ocr功能用过,比abbyy差太多。

还有其他针对简中或中英文的ocr比较好的ocr软件也请介绍。

多谢!

2 个赞

天若ocr最好的接口是自定义接口,也就是大厂的接口,比如百度高精度。
百度高精度一个月好像是1000次免费,批量识别的话不太合适。
注:我这里说的是天若专业版而不是天若开源版

另外,我没感觉acrobat的ocr水平比abbyy差很多 :rofl:
反而abbyy更卡顿,可能适合高配置电脑吧

我用的marginnote3,自带ocr,不过无法输出,只能现识别现用。不过于我来说够用了

中英识别率最高的应该是夸克,看很多文章都这样说,不知道是不是软文,论坛里也有人提过。

1 个赞

翻了下旧贴,也是楼主发的。

一款免费的小程序,集成了搜狗、腾讯、有道、百度四家ocr接口,免费使用每月有“流量”限制。个人认为有道ocr识别效果更好,除了常见的拉丁字母还可以识别德语变音。日常场景使用够了。

感谢各位分享经验
1,试用了一下天若,是52pojie上的1.3.9本地,发现只能截图然后ocr,不支持对PDF的OCR。
还请ls的回帖者看看,是不是只能这样用?
2,刚好一个几页的扫描pdf需要ocr,使用wondershare 的pdfelement(这个是万兴pdf的国际版本吗?),版本是10.1.5.*,发现与abbyy finereader 16略差一点点。
3,若仅仅截图ocr的话,天若ocr可以用quicker替代。quicker里面有截图ocr的功能块,用起来更方便。看一份未ocr的图像型pdf若只需要一块被ocr就可以用quicker解决问题。

https://baimiao.uzero.cn/# 试试白描

楼上指的是商业版的天若 https://ocr.tianruo.net/
本地版(开源版)天若最大的好处是离线, 使用说明

1. 文字识别

按下快捷键-按下鼠标左键-移动鼠标-画出矩形区域-松开鼠标

2. 截图到粘贴板

按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下空格键

3. 截图自动保存

按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下A键

4. 截图另存为

按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下S键

5. 识别后百度

按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下B键

6. 识别后分割文本

按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下数字键1键

7. 识别后合并文本

按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下数字键2键

8. 贴图功能

按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下Q键

9. 屏幕取色器

按下快捷键-按下C键-拾取颜色-松开鼠标

10. 高级截图功能

按下快捷键-按下E键-进行截图编辑

11. 多选区识别

按下快捷键-按下Tab键-选择区域-鼠标双击选中区域

12. 多选区截图

按下快捷键-按下Tab键-画区域-按下A键保存

没想到这个截图ocr+翻译软件这么不错,

3 个赞

再找一本扫描效果不太好的书,试一试ocr效果。简体汉字,注释部分字很小也不太清楚,原书扫描的分辨率应该不高。但ocr效果不错。

略比较几份pdf的截图和ocr,有简体和繁体,quicker里面的截图ocr的识别率比Umi-ocr要高一些。

天若专业版 百度高精度接口识别如下

1 个赞

白描是一个相当优秀的ocr,作者还在大三时开发,据他说是为了帮女朋友写论文ocr资料。买过它的手机app。但这个软件在ocr有排版的材料时,不能保持原版面。不知作者为什么一直不补充这个功能。

福昕怎么样?

个人使用感受是, 百度对中文识别率最高,不过免费次数很有限,收费的价格高,昨天做了几本厚书的OCR,几十大洋没了。 再就是WPS的OCR,对中英混排的OCR效果也还不错,尤其是还原原书排版方面

对于清晰的PDF,纯英文和纯中文,谷歌和百度的OCR差不多,谷歌OCR稍好(而且价格便宜多了)。模糊的纯英文和纯中文,谷歌OCR要好不少。

中英杂交混合PDF(不是一段英文一段中文,而是互相嵌套那种),百度OCR效果更好,尤其是中英混合里里的中文识别的更好

还不知道谷歌的ocr。这个是怎么使用呢?我用abbyy finereader 15,16比较多。也用过万兴7.*版本。现在一般就用abbyy 16了。ocr过以下pdf
–简体,
–繁体
–简体和英文
–繁体和英文
–英文+德语

觉得abbyy 15/16只要原图像型pdf扫描清晰,识别率都很不错。
能不能截取几页觉得百度ocr和谷歌ocr好的书页,试试用abbyy的效果?

金山的wps试过,非常糟糕,对wps的ocr没用过。不过,会比abbyy和万兴ocr更好吗?。
能不能摘取几页来试试对比效果?

我用的WPS会员,不知和非会员的有无区别。 原图和OCR转WORD后的效果对比,在保持原排本基础上基本上做到文本化了,除了音标和一些特殊字符