如何通过hOCR文件生成PDF文字层？

Chengzhir · 2024 年7 月 12 日 05:00

如题

自扫了几十本书，先前考虑到各种本地OCR软件识别精度不高错误太多、对文件的更改不可控等原因，一直没把那些书过OCR，直接分享了纯图片的PDF。

最近想试试使用云OCR，目前尝试了Google的Document AI，导出为hOCR文件。搜索过根据hOCR在PDF上生成文本层的软件，但找到的似乎不大符合需求（例如不支持中文），是否有方便的此类软件？gui, cli均可，方便调的库也行，实在不想自己写

last_idol · 2024 年7 月 12 日 05:07

OCRmyPDF 需要你自己写插件。

leoleo · 2024 年7 月 12 日 12:59

自扫书很清晰的话，用ocr软件，就可以达到比较好的效果。abbyy是很好的，不知道是不是业内对pdf做ocr的第一，但说它在top3以内，应该没有异议。
我常用的三个，abbyy的afr15和16，foxitexitpro，pdfxchange。
1，foxiteditpro的ocr购买了abbyy的模块。用2个软件比较过十来次，综合看，简中或简体+英文，foxit比abbyy略好一点。但它几乎没有设置选项，比如，只能ocr整本书
2，ABBYY_Finereader_PDF 15或16综合最好，设置比较多，尤其校对功能很强。之前我认为16比15好，但最近遇到16的几次罢工，还是回到15版本用。
3，pdfxchange的ocr也不错。
总结一下就2点，
简体，简体+英文，繁体+英文，用foxit；
英文，用afr15。
4，一般在ocr后，不做校对。一本pdf书籍几百页，错少量字词可以接受。
有时手机翻拍重要的扫描文件，十几页最多二十来页的，就用afr ocr，然后逐页核对一遍，需要修改的量很少。只要原文比较平整，拍的清晰，ocr’的准确率相当高。用foxit的在ocr后校对极其不方便。

Chengzhir · 2024 年7 月 12 日 14:37

谢谢，刚刚痛苦地折腾了一下，大概知道用法了。

目前的问题是还没适配cjk，复制出来会加空格

Chengzhir · 2024 年7 月 12 日 14:38

有点强迫症，不大能接受一些ocr出来的错误。以前试过abbyy，感觉有时候错误还是会有……

Chengzhir · 2024 年7 月 12 日 14:53

找到了，其实支持cjk，只是我的hocr没标每段的语言。在hocr里每段加个lang字段标为lang='chi_sim’就行

leoleo · 2024 年7 月 13 日 11:04

你的這種方法的中英文的ocr识别率很高吗？很感兴趣，能不能请你介绍一下。可以的话，用一两个扫描的图象型pdf书籍例子，用你的方法，和用afr和Foxit_PDF_Editor_Pro的对比一下，看看效果对比。你要出来例书，我用后者2种软件ocr一下。

random · 2024 年7 月 13 日 12:38

期待一个完整教程，我也用谷歌的OCR，一直没研究一下怎么把谷歌的OCR结果整合到PDF里

jax · 2024 年7 月 13 日 14:45

夸克扫描王，正确率惊奇的高。信我，你会被震惊到的。只要图片字体清晰，那正确率基本能达到99%以上。

random · 2024 年7 月 13 日 15:51

这个的（还是扫描全能王？）技术底座是合合OCR，中文OCR最强王者。
英文识别还欠火候，目前不如百度和谷歌

更新：

Chengzhir · 2024 年7 月 13 日 15:53

我现在也不大确定这种方法和一般PDF处理软件带的OCR相比效果如何。目前Document AI的效果大概是，纯文本准确度很高，但逗号冒号等标点只会识别出半角标点，复杂版面、数学公式（保留格式、转成latex格式等等不用想，还有x识别成æ，λ识别成了入等情况）等情况下效果就一般。

[REDACTED]

这是例书，其中æ被我手动更正了所以里面没有。我现在在跑一本纯文本的书，跑完了也发上来。

Chengzhir · 2024 年7 月 13 日 15:54

晚点吧，写的代码有点烂，还是半成品，不大好意思发出来（（

总体思路大概是把pdf拆成单页，传给Document AI，获取hOCR文件后，调用OCRmyPDF的ocrmypdf.api._hocr_to_ocr_pdf函数。不过OCRmyPDF处理后好像文件会变大一些，我后面会再过一遍pdfpatcher的无损压缩

random · 2024 年7 月 13 日 15:54

这个我觉得是英文识别最强王者

random · 2024 年7 月 13 日 15:55

严重期待下

Chengzhir · 2024 年7 月 13 日 16:17

这是几乎纯文本的例书：

[REDACTED]

Chengzhir · 2024 年7 月 13 日 16:23

测试了一下隔壁贴的样本一

test.pdf (3.0 MB)

没有仔细校对，似乎列出的其他OCR软件的错误，除了漏专(阃)久膺和标点符号以外都未出现在Google Document AI结果中。不过逗号冒号等标点还是全给了半角标点，还有括号漏了三个

Chengzhir · 2024 年7 月 13 日 16:42

Document AI普通那档每月一千页免费额度，往上一千页1.5美元，新用户送300美元额度，好像还挺划算的？

last_idol · 2024 年7 月 13 日 16:54

你能直接贴下文本或者上传下 xml 吗？我复制到的文本很多错误，不确定哪边的问题。

Chengzhir · 2024 年7 月 13 日 17:00

抱歉传错了，这个好像是没识别的

ocred1.pdf (597.4 KB)
000001_ocr_hocr.zip (13.9 KB)

last_idol · 2024 年7 月 13 日 17:22

拼音全对，符号错两处，识别质量很不错。

大(孚)众望 // 漏字
专(阃)久膺 // 漏字
(圣)明洞鉴 // 漏字
九(一) // 错字：-