如题
自扫了几十本书,先前考虑到各种本地OCR软件识别精度不高错误太多、对文件的更改不可控等原因,一直没把那些书过OCR,直接分享了纯图片的PDF。
最近想试试使用云OCR,目前尝试了Google的Document AI,导出为hOCR文件。搜索过根据hOCR在PDF上生成文本层的软件,但找到的似乎不大符合需求(例如不支持中文),是否有方便的此类软件?gui, cli均可,方便调的库也行,实在不想自己写
如题
自扫了几十本书,先前考虑到各种本地OCR软件识别精度不高错误太多、对文件的更改不可控等原因,一直没把那些书过OCR,直接分享了纯图片的PDF。
最近想试试使用云OCR,目前尝试了Google的Document AI,导出为hOCR文件。搜索过根据hOCR在PDF上生成文本层的软件,但找到的似乎不大符合需求(例如不支持中文),是否有方便的此类软件?gui, cli均可,方便调的库也行,实在不想自己写
OCRmyPDF 需要你自己写插件。
自扫书很清晰的话,用ocr软件,就可以达到比较好的效果。abbyy是很好的,不知道是不是业内对pdf做ocr的第一,但说它在top3以内,应该没有异议。
我常用的三个,abbyy的afr15和16,foxitexitpro,pdfxchange。
1,foxiteditpro的ocr购买了abbyy的模块。用2个软件比较过十来次,综合看,简中或简体+英文,foxit比abbyy略好一点。但它几乎没有设置选项,比如,只能ocr整本书
2,ABBYY_Finereader_PDF 15或16综合最好,设置比较多,尤其校对功能很强。之前我认为16比15好,但最近遇到16的几次罢工,还是回到15版本用。
3,pdfxchange的ocr也不错。
总结一下就2点,
简体,简体+英文,繁体+英文,用foxit;
英文,用afr15。
4,一般在ocr后,不做校对。一本pdf书籍几百页,错少量字词可以接受。
有时手机翻拍重要的扫描文件,十几页最多二十来页的,就用afr ocr,然后逐页核对一遍,需要修改的量很少。只要原文比较平整,拍的清晰,ocr’的准确率相当高。用foxit的在ocr后校对极其不方便。
谢谢,刚刚痛苦地折腾了一下,大概知道用法了。
目前的问题是还没适配cjk,复制出来会加空格
有点强迫症,不大能接受一些ocr出来的错误。以前试过abbyy,感觉有时候错误还是会有……
找到了,其实支持cjk,只是我的hocr没标每段的语言。在hocr里每段加个lang字段标为lang='chi_sim’就行
你的這種方法的中英文的ocr识别率很高吗?很感兴趣,能不能请你介绍一下。可以的话,用一两个扫描的图象型pdf书籍例子,用你的方法,和用afr和Foxit_PDF_Editor_Pro的对比一下,看看效果对比。你要出来例书,我用后者2种软件ocr一下。
期待一个完整教程,我也用谷歌的OCR,一直没研究一下怎么把谷歌的OCR结果整合到PDF里
夸克扫描王,正确率惊奇的高。信我,你会被震惊到的。只要图片字体清晰,那正确率基本能达到99%以上。
这个的(还是 扫描全能王?)技术底座是合合OCR,中文OCR最强王者。
英文识别还欠火候,目前不如百度和谷歌
更新:
我现在也不大确定这种方法和一般PDF处理软件带的OCR相比效果如何。目前Document AI的效果大概是,纯文本准确度很高,但逗号冒号等标点只会识别出半角标点,复杂版面、数学公式(保留格式、转成latex格式等等不用想,还有x识别成æ,λ识别成了入等情况)等情况下效果就一般。
[REDACTED]
这是例书,其中æ被我手动更正了所以里面没有。我现在在跑一本纯文本的书,跑完了也发上来。
晚点吧,写的代码有点烂,还是半成品,不大好意思发出来((
总体思路大概是把pdf拆成单页,传给Document AI,获取hOCR文件后,调用OCRmyPDF的ocrmypdf.api._hocr_to_ocr_pdf函数。不过OCRmyPDF处理后好像文件会变大一些,我后面会再过一遍pdfpatcher的无损压缩
这个我觉得是英文识别最强王者
严重期待下
这是几乎纯文本的例书:
[REDACTED]
测试了一下隔壁贴的样本一
test.pdf (3.0 MB)
没有仔细校对,似乎列出的其他OCR软件的错误,除了漏专(阃)久膺和标点符号以外都未出现在Google Document AI结果中。不过逗号冒号等标点还是全给了半角标点,还有括号漏了三个
Document AI普通那档每月一千页免费额度,往上一千页1.5美元,新用户送300美元额度,好像还挺划算的?
你能直接贴下文本或者上传下 xml 吗?我复制到的文本很多错误,不确定哪边的问题。
抱歉传错了,这个好像是没识别的
ocred1.pdf (597.4 KB)
000001_ocr_hocr.zip (13.9 KB)
拼音全对,符号错两处,识别质量很不错。