日前对一本繁体竖排的pdf书籍做了ocr,发现有2个工具可用,且识别率很不错。

1,选了50页用几个ocr软件做了识别,对比一下识别效果,发现abbyy 16和foxit pdf editor pro 2024很好支持繁体竖排pdf的ocr,
2,并且这2个软件对繁体竖排pdf阅读,支持竖排词组检索和注释(主要是高亮和下划线)。而其他几个主流pdf软件,如adobe和pdfxchange不能支持竖排词组的检索,只能检索单个字。万兴pdf倒是支持检索,但它的ocr功能明显差一些。
3,以上都是针对繁体竖排,若是繁体横排,就更简单一些了。
这些软件在有名的nite07都可以下载到特别版。

2 个赞

nite07?

1 个赞

港台书很多都是竖排的。非常感谢楼主的测评,很有帮助 :+1:

请问有什么办法可以把竖排转换成横排吗?

1。在nite07的网站还下载了好几个pdf软件,都支持OCR建立双层pdf。2,这几个对繁体竖排无法做到100%的识别率,我做了ocr后也很少去校对,没必要也没那个时间。ocr的结果对于看书用足够了----可以检索,可以复制,可以进行文字型PDF的注释(指荧光笔和下划线等)。
3,可以OCR的包括:
abbyy 15,16(16效果明显比15好),
Acrobat pro2024,
福昕专业版,foxit phantum,(这两个用福昕editor更好,phantom现在不搞了,并且咨询官方他们用的是abbyy的识别模块)
pdf xchange,
4,这6个都支持繁体竖排的pdf的ocr。找了几本书对比后,基本是福昕editor专业版和abbyy胜出,abbyy有时候会稍微好一点点,pdf xchange也不错。
4,繁体竖排做ocr后,接着的问题是pdf阅读软件,发现了一个奇怪情况,这三个的阅读还不太兼容,指的是福昕的pdf阅读器,在阅读福昕做了ocr的繁体竖排pdf时,比阅读abbyy的ocr的书,检索结果会更多一些。这就有点奇怪了。abbyy也存在这个情况。好像是自己的ocr用自己的阅读,效果更好。很有意思。
但xchange对竖排文字的支持不好,也就是说,阅读竖排书籍,包括竖排台版港版或一些日语竖排,还是abbyy或foxit editor更好。

2 个赞