之前看到论坛里分享的旋元佑的书, 扫描的pdf偏淡.
早就想研究一下pdf编辑的问题了, 也试过很多pdf编辑器, 都不满意, 这次又折腾了一下, 谈谈收获
PDF OCR
平时没有OCR的需求, 只是顺便对比了pytesseract和Acrobat, 还是pytesseract的效果更好
调整对比度, 明暗度等
在Adobe Acrobat Pro的 工具>文档处理>优化扫描的PDF里调整, 亮点是页面倾斜修正.
更精细的调整是把PDF提取出图片(工具>页面>提取), 用图片批处理工具调整图片, 最后再制作成PDF.
页面尺寸调整
在Adobe Acrobat Pro里 “文件>打印>自定义比例” 重新打印成pdf, 期间可调整文档的一些属性.
另外
我自己还写了一个python脚本, 想法是这样的, 既然pytesseract可以提供置信值, 那么就根据置信值调整页面对比度岂不是能调整到最佳程度?
然而现实却没有想象那么好.
图片在制作成PDF时会被压缩. 那之前的优化就大打折扣了. 我找了一个无损制作pdf的img2pdf
的库.确实效果比之前好一点.
制作完的页面尺寸偏大, 我又想缩放图片, 尝试各种算法之后, 发现还是不动最好, 一缩放都难看. 相对来说’lanczos’较清晰, 其他算法虚的难看.
但是, acrobat的重新打印缩放页面的效果反而更好, 不愧是图形图像的工业标准厂家, 缩放图像这方面还是adobe在行.
最后
这个是更新的文件, 旋元佑《英文阅读》《英文写作》扫描 - #13,来自 舒服员
它用了无损输出pdf的方法和acrobat的缩放页面.