如何通过hOCR文件生成PDF文字层？

Chengzhir · 2024 年7 月 13 日 16:23

测试了一下隔壁贴的样本一

test.pdf (3.0 MB)

没有仔细校对，似乎列出的其他OCR软件的错误，除了漏专(阃)久膺和标点符号以外都未出现在Google Document AI结果中。不过逗号冒号等标点还是全给了半角标点，还有括号漏了三个