如何通过hOCR文件生成PDF文字层?

测试了一下隔壁贴的样本一

test.pdf (3.0 MB)

没有仔细校对,似乎列出的其他OCR软件的错误,除了漏专(阃)久膺和标点符号以外都未出现在Google Document AI结果中。不过逗号冒号等标点还是全给了半角标点,还有括号漏了三个