PDF文件翻新技术(适合灰度和彩色的PDF图片文件)

不是所有扫描图像都仅仅是类似小说等的纯文字内容,内容复杂后OCR质量目前仍无法保证。况且有时书籍排版复杂,仅用OCR文字层,其最终排版会逊色于原图像层,故有些书籍还是保留图像层为好。

至于图像处理,OCR前一般也需要预处理图像,或者说适当的图像处理有利于OCR程序更准确地识别,故掌握一定的图像处理技能还是有必要的。

对比之下,OCR才是真正的复杂(为保证质量而付出无数的精力,还不一定能弄好,且不说很多资料是无法文字化的,比如古文字、图表之类),使用图片反而是真正的简单(内容准确性100%,不必排版之类,可靠、简单)。

1 个赞

有时间学学这个