leoleo
1
最近有一些pdf文件(小的十几页,大的几百页上千页)需要做ocr后以后期进行检索和复制文字。
想找一个识别率高的ocr软件。
以下几种OCR软件比较容易找到,论坛也有不少人对pdf处理和ocr有丰富经验,
求教一下大家的使用体验和感受
1,abbyy 15或16(ABBYY finereader 15 或ABBYY finereader 16)
2,万兴pdf(这个好像还有2个 名字,wonderpdf pdfelement),现在有10.1.5版本
3,天若ocr
4,adobe acrobat 2022或2023
抛砖引玉,以上的4种,天若ocr没接触过。
abbyy 15和abbyy16都用过,16比15在OCR上明显提升。
万兴pdf用过7.6.7版本的ocr功能,简中pdf书籍识别很不错。
adobe acrobat 2022和2023的ocr功能用过,比abbyy差太多。
还有其他针对简中或中英文的ocr比较好的ocr软件也请介绍。
多谢!
2 个赞
天若ocr最好的接口是自定义接口,也就是大厂的接口,比如百度高精度。
百度高精度一个月好像是1000次免费,批量识别的话不太合适。
注:我这里说的是天若专业版而不是天若开源版
另外,我没感觉acrobat的ocr水平比abbyy差很多 
反而abbyy更卡顿,可能适合高配置电脑吧
幻彩妖
3
我用的marginnote3,自带ocr,不过无法输出,只能现识别现用。不过于我来说够用了
中英识别率最高的应该是夸克,看很多文章都这样说,不知道是不是软文,论坛里也有人提过。
1 个赞
一款免费的小程序,集成了搜狗、腾讯、有道、百度四家ocr接口,免费使用每月有“流量”限制。个人认为有道ocr识别效果更好,除了常见的拉丁字母还可以识别德语变音。日常场景使用够了。
leoleo
7
感谢各位分享经验
1,试用了一下天若,是52pojie上的1.3.9本地,发现只能截图然后ocr,不支持对PDF的OCR。
还请ls的回帖者看看,是不是只能这样用?
2,刚好一个几页的扫描pdf需要ocr,使用wondershare 的pdfelement(这个是万兴pdf的国际版本吗?),版本是10.1.5.*,发现与abbyy finereader 16略差一点点。
3,若仅仅截图ocr的话,天若ocr可以用quicker替代。quicker里面有截图ocr的功能块,用起来更方便。看一份未ocr的图像型pdf若只需要一块被ocr就可以用quicker解决问题。
楼上指的是商业版的天若 https://ocr.tianruo.net/
本地版(开源版)天若最大的好处是离线, 使用说明 :
1. 文字识别
按下快捷键-按下鼠标左键-移动鼠标-画出矩形区域-松开鼠标
2. 截图到粘贴板
按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下空格键
3. 截图自动保存
按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下A键
4. 截图另存为
按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下S键
5. 识别后百度
按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下B键
6. 识别后分割文本
按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下数字键1键
7. 识别后合并文本
按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下数字键2键
8. 贴图功能
按下快捷键-鼠标左键按下-画出矩形区域(鼠标按住)-按下Q键
9. 屏幕取色器
按下快捷键-按下C键-拾取颜色-松开鼠标
10. 高级截图功能
按下快捷键-按下E键-进行截图编辑
11. 多选区识别
按下快捷键-按下Tab键-选择区域-鼠标双击选中区域
12. 多选区截图
按下快捷键-按下Tab键-画区域-按下A键保存
leoleo
11
再找一本扫描效果不太好的书,试一试ocr效果。简体汉字,注释部分字很小也不太清楚,原书扫描的分辨率应该不高。但ocr效果不错。
leoleo
12
略比较几份pdf的截图和ocr,有简体和繁体,quicker里面的截图ocr的识别率比Umi-ocr要高一些。
leoleo
14
白描是一个相当优秀的ocr,作者还在大三时开发,据他说是为了帮女朋友写论文ocr资料。买过它的手机app。但这个软件在ocr有排版的材料时,不能保持原版面。不知作者为什么一直不补充这个功能。
cnlion
16
个人使用感受是, 百度对中文识别率最高,不过免费次数很有限,收费的价格高,昨天做了几本厚书的OCR,几十大洋没了。 再就是WPS的OCR,对中英混排的OCR效果也还不错,尤其是还原原书排版方面
random
17
对于清晰的PDF,纯英文和纯中文,谷歌和百度的OCR差不多,谷歌OCR稍好(而且价格便宜多了)。模糊的纯英文和纯中文,谷歌OCR要好不少。
中英杂交混合PDF(不是一段英文一段中文,而是互相嵌套那种),百度OCR效果更好,尤其是中英混合里里的中文识别的更好
leoleo
18
还不知道谷歌的ocr。这个是怎么使用呢?我用abbyy finereader 15,16比较多。也用过万兴7.*版本。现在一般就用abbyy 16了。ocr过以下pdf
–简体,
–繁体
–简体和英文
–繁体和英文
–英文+德语
觉得abbyy 15/16只要原图像型pdf扫描清晰,识别率都很不错。
能不能截取几页觉得百度ocr和谷歌ocr好的书页,试试用abbyy的效果?
leoleo
19
金山的wps试过,非常糟糕,对wps的ocr没用过。不过,会比abbyy和万兴ocr更好吗?。
能不能摘取几页来试试对比效果?
cnlion
20
我用的WPS会员,不知和非会员的有无区别。 原图和OCR转WORD后的效果对比,在保持原排本基础上基本上做到文本化了,除了音标和一些特殊字符