PDF优化的一些方法

之前看到论坛里分享的旋元佑的书, 扫描的pdf偏淡.
早就想研究一下pdf编辑的问题了, 也试过很多pdf编辑器, 都不满意, 这次又折腾了一下, 谈谈收获

PDF OCR

平时没有OCR的需求, 只是顺便对比了pytesseract和Acrobat, 还是pytesseract的效果更好

调整对比度, 明暗度等

在Adobe Acrobat Pro的 工具>文档处理>优化扫描的PDF里调整, 亮点是页面倾斜修正.
更精细的调整是把PDF提取出图片(工具>页面>提取), 用图片批处理工具调整图片, 最后再制作成PDF.

页面尺寸调整

在Adobe Acrobat Pro里 “文件>打印>自定义比例” 重新打印成pdf, 期间可调整文档的一些属性.

另外

我自己还写了一个python脚本, 想法是这样的, 既然pytesseract可以提供置信值, 那么就根据置信值调整页面对比度岂不是能调整到最佳程度?

然而现实却没有想象那么好.

图片在制作成PDF时会被压缩. 那之前的优化就大打折扣了. 我找了一个无损制作pdf的img2pdf的库.确实效果比之前好一点.

制作完的页面尺寸偏大, 我又想缩放图片, 尝试各种算法之后, 发现还是不动最好, 一缩放都难看. 相对来说’lanczos’较清晰, 其他算法虚的难看.

但是, acrobat的重新打印缩放页面的效果反而更好, 不愧是图形图像的工业标准厂家, 缩放图像这方面还是adobe在行. :sweat_smile:

最后

这个是更新的文件, 旋元佑《英文阅读》《英文写作》扫描 - #13,来自 舒服员

它用了无损输出pdf的方法和acrobat的缩放页面.

4 Likes

这个优化效果好像不太行,文字周边产生了阴影
这让我想起以前那种减pdf大小的简易软件的效果

有兴趣可以试试老马的 ComicEnhancerPro
不过py的优化怎么弄、ComicEnhancerPro 优化的具体操作我都不太会
ComicEnhancerPro 我只会强制批量黑白的操作)

那边13#只看到写作没看到阅读,是我眼神未到位还是遗漏了?

2 Likes

原件的扫描质量太差了!
https://cloud.freemdict.com/index.php/s/cMmntZFtYQRB79H

同感,优化效果似乎有点过了,比如封面作者的脸优化过度了 ::

如果优化 PDF,不试下 Acrobat 的插件套装 enfocus pitstop 不能说努力到位。虽然象智能切边这种奇特技巧还得靠 老马的ComicEnhancerPro 这样的小工具。

1 Like

请教ComicEnhancerPro现在版本为多少,见到的是6.06。

1 Like

谢谢,朗文多功能分类词典 英汉双解 - #23,来自 endnote 这个里面给的链接就是6.06的。

那个链接应该是原作者发布软件的官方链接

手机可以下载一个布丁扫描,导入PDF,然后编辑,选滤镜增强,应用到全部,保存即可,简单免费