PDF优化的一些方法

舒服员 · 2022 年10 月 9 日 18:23

之前看到论坛里分享的旋元佑的书, 扫描的pdf偏淡.
早就想研究一下pdf编辑的问题了, 也试过很多pdf编辑器, 都不满意, 这次又折腾了一下, 谈谈收获

PDF OCR

平时没有OCR的需求, 只是顺便对比了pytesseract和Acrobat, 还是pytesseract的效果更好

调整对比度, 明暗度等

在Adobe Acrobat Pro的 工具>文档处理>优化扫描的PDF里调整, 亮点是页面倾斜修正.
更精细的调整是把PDF提取出图片(工具>页面>提取), 用图片批处理工具调整图片, 最后再制作成PDF.

页面尺寸调整

在Adobe Acrobat Pro里 “文件>打印>自定义比例” 重新打印成pdf, 期间可调整文档的一些属性.

另外

我自己还写了一个python脚本, 想法是这样的, 既然pytesseract可以提供置信值, 那么就根据置信值调整页面对比度岂不是能调整到最佳程度?

然而现实却没有想象那么好.

图片在制作成PDF时会被压缩. 那之前的优化就大打折扣了. 我找了一个无损制作pdf的img2pdf的库.确实效果比之前好一点.

制作完的页面尺寸偏大, 我又想缩放图片, 尝试各种算法之后, 发现还是不动最好, 一缩放都难看. 相对来说’lanczos’较清晰, 其他算法虚的难看.

但是, acrobat的重新打印缩放页面的效果反而更好, 不愧是图形图像的工业标准厂家, 缩放图像这方面还是adobe在行.

最后

这个是更新的文件, 旋元佑《英文阅读》《英文写作》扫描 - #13，来自舒服员

它用了无损输出pdf的方法和acrobat的缩放页面.

poorich · 2022 年10 月 9 日 18:42

这个优化效果好像不太行，文字周边产生了阴影
这让我想起以前那种减pdf大小的简易软件的效果

有兴趣可以试试老马的 ComicEnhancerPro
不过py的优化怎么弄、ComicEnhancerPro 优化的具体操作我都不太会
（ComicEnhancerPro 我只会强制批量黑白的操作）

dictsun · 2022 年10 月 10 日 02:15

那边13#只看到写作没看到阅读，是我眼神未到位还是遗漏了？

Z_Cotton · 2022 年10 月 10 日 04:31

原件的扫描质量太差了！

hahaya · 2022 年10 月 10 日 05:46

同感，优化效果似乎有点过了，比如封面作者的脸优化过度了 ::

surfactant · 2022 年10 月 10 日 06:11

如果优化 PDF，不试下 Acrobat 的插件套装 enfocus pitstop 不能说努力到位。虽然象智能切边这种奇特技巧还得靠老马的ComicEnhancerPro 这样的小工具。

dictsun · 2022 年10 月 10 日 08:28

请教ComicEnhancerPro现在版本为多少，见到的是6.06。

surfactant · 2022 年10 月 10 日 08:34

dictsun · 2022 年10 月 10 日 23:45

谢谢，朗文多功能分类词典英汉双解 - #23，来自 endnote 这个里面给的链接就是6.06的。

surfactant · 2022 年10 月 11 日 02:00

那个链接应该是原作者发布软件的官方链接

huanxiang · 2022 年12 月 5 日 12:53

手机可以下载一个布丁扫描，导入PDF，然后编辑，选滤镜增强，应用到全部，保存即可，简单免费

leoleo · 2024 年6 月 26 日 09:26

之前学习了一下用老马的ECP优化pdf书籍，效果不错，尤其黑白，但比较繁琐。最初把布丁扫描当作扫描全能王app更好的一个替代品，扫描文档做成pdf，后来发现它有批处理，滤镜也多。试验一下直接导入pdf处理，没想到效果还不错，关键是快速。对效果实在太差的pdf，要求不太高的情况下，用布丁扫描处理，很快，而且效果明显好一些。当然，可能不如ECP或更专业的方法或工具，但在效果和时间综合看，布丁扫描app已经很不错了。今天才看到尊兄这个回复，原来早就有人这么搞了。没看到，自己瞎摸了一阵才发现这个方法。

leoleo · 2024 年6 月 26 日 09:27

另外，pdf xchange 和acrobat 都有针对扫描pdf的优化功能，效果有一点，不十分明显，但优点是便捷。有些扫描pdf书也可以考虑用。