PDF文件翻新技术(适合灰度和彩色的PDF图片文件)

PDF文件翻新技术(适合灰度和彩色的PDF图片文件)
刚刚录制的视频教程,适合灰度和彩色的PDF图片文件清理黑边,要处理的文件上面的文字就是图片格式的文字,而水印直接在图片上的不能点击一下删除的情况。
使用的软件迅捷PDF编辑器,为何用这个PDF编辑器?因为可以直接调用外部软件处理PDF上的图片。
另外使用的软件还有Paint.net (当然如果你photoshop熟练可以用photoshop),主要用上面的魔棒和橡皮,和Photoshop有点小差异,自己去比较看看,我也用photoshop处理过。上面魔棒那个设置数值是个技术活,自己设置看看那个数值比较适合你的PDF文件。要选好魔棒那个数值,如果你把文字变得比较粗糙,可能需要使用马健那个软件对文字进行加粗处理。
修改完了要保存,退出软件,然后在迅捷PDF编辑器上保存。
最后编辑完的PDF文件的体积会比原来的大,文件变胖了不少。我演示的这个PDF文件原来200多兆,具体数字忘了,现在编辑了大致三分之一了文件变成600多兆了。为什么变胖?因为迅捷PDF编辑器对于在上面使用外部软件编辑的图片后来存入PDF文件上之后没有进行任何压缩。

当然如果你的PDF文件上面只是需要少量的修改擦除,可以直接使用ABBYY FInereader 14或15直接对需要擦掉的部分擦除就可以了。Finereader这个软件上面不需要调用其他软件处理,Finereader 14版的橡皮功能和12版的功能不一样,14版的是根据周围的内容进行处理,12版的是直接擦掉。

视频教程(上面多点了两次魔棒)
链接:https://pan.baidu.com/s/1ZLkGjka1NboMUM9cK5pHig
提取码:f2m4

3 Likes

建议使用免费、开源、质量优秀的方案:
1、使用PDFPatcher导出PDF中的图片,使用FreePic2Pdf导出PDF的书签等。
2、使用GIMP等任何图片编辑软件编辑优化图片,对于图书扫描件等建议使用ComicEnhancerPro。
3、使用FreePic2Pdf将图片转为PDF,并将原始的PDF书签导入。

1 Like

ComicEnhancerPro之前听说处理的图片好像有啥问题,必须再用Photoshop保存一次才能解决,我忘记具体是什么问题了

免费的软件有免费的好处,收费的也有收费的好处,这东西用过才知道。PDF导出图片的软件非常多,这个不去评论。ComicEnhancerPro这个软件我个人感觉也就对于不清晰的文字加粗功能对我有点用处,至于里面的展平功能我个人感觉一般,可能马健自己用的时候是因为他的图片基本都是那种夹着玻璃拍摄的那种,需要展平的非常有限,所以他在写这个软件的时候采用那几个点调节进行展平,客观说这个展平设计的一般,不如设计成让用户用鼠标或手写笔画上那个文字方向曲线进行展平。至于图片转PDF的软件也是有一堆,这种软件我个人使用感觉还是Nuance Power PDF和Adobe Acrobat PDF这两个软件效果能好点。有些PDF软件短期可能不一定比较出来,使用时间长了就比较出来了。昨晚在华为P20Pro上使用几个不同的PDF阅读器看同一个文件就比较出差异了,Foxit MobilePDF Business 6.5.0.0930这个软件是那些PDF阅读器中显示最差的,能看出PDF文件上非常多噪点,而其他PDF阅读器看同一个文件里面的文字和图片都是非常光滑的看不到噪点的。
喜欢免费的可以用免费的,喜欢商业版的可以用商业版的,这都是个人自己的选择。
至于PDF编辑器功能强的就那么几个,这种软件也用过很多了,名称不给大家介绍了,有时候为了某个功能要反复在两个不同的编辑器之间进行切换编辑,等大家对于PDF编辑的需要跟word编辑文件的需要那样就知道我说什么了。

ComicEnhancerPro 这个软件里面自己独有的功能就那么几个,我刚才也说了我只能用到它的加粗功能,可惜的是软件上没增加区域选择进行加粗,这点对于处理需要部分加粗的图片就有些麻烦。至于马健采用模糊进行降低黑白图片的噪点这点我感觉马健没有深入思考,其实可以引入层的做法,复制一层进行模糊处理,然后把这个模糊的层没文字的地方全抠掉作为蒙版用于对那个实际层的噪点进行擦除处理。处理完之后把这个模糊的蒙版层删掉,然后保存就行了。不知道是马健没想到这个方法还是因为要写的代码太多而没采用这种方式。

我就是采用这种方式,只用Acrobat处理只会增加文件体积,而且文件处理后效果更差,如打印不了某些页面之类,引起卡顿,图片效果变差。
用PDFPatcher基本上导出图片文件的原貌,对各种图片类型杂揉一起的PDF尤其有效,不会像Acrobat一股脑按一规格处理。
ComicEnhancer与FreePic2Pdf,方便简捷。其他都是复杂也难控制。

1 Like

你处理完了打印不了某些页面可能是因为图片移位了,之前用Foxit PDF Editor遇到这种事情。变大是因为没有再度压缩,图片效果变差是个人处理图片的技术造成的。我处理的那个整脊医学的PDF文件,源文件240多M,399页,清理完之后变成1.3G多。文件太大,我又用Foxit 的一个PDF压缩器压缩完了之后比源文件大不了多点。
你如果不信,我可以把我那个清理完并且又压缩了的PDF文件发给你你打印看看。

1 Like

也许你是对的,我没做过不好说,不存在不相信你的事。我用Foxit压缩过,但对它压缩功能没有特别印象。题外话:我一般Foxit加音频于PDF上。Iphone上用Foxit听音频因它能控制音频播放,其他没找到类似的,安卓上有二款可控制播放PDF音频的APP。

知道PDF文件能捆绑音频视频等格式,但从来没试过。因为感觉好像靠不住。安卓版的PDF阅读器可能都很难找到能显示书签的PDF阅读器

这样做的思路有问题:对于有损压缩格式的图片(如jpg等)比较忌讳多次处理,每处理一次,质量下降一次,而且是永久性的损伤,无法修复。

合理的做法:尽量一次性处理完毕图片;或者中间先用无损压缩格式保存,待处理完成后再转为希望的目标格式。

用 PDFPatcher 导出图片和原图比对一下就知道了。
我猜是 Foxit PDF Editor 用内定的 dpi, color depth, 及图片格式对原图作了处理。

对PDF里的图片处理或者PDF直接就是图片格式的PDF,对这种文件处理实际上都是有损,但有损处理不代表处理完之后更不清晰。如果只是对灰度的文件或者发黄的文件或者只是处理掉黑白和书脊中的黑条,处理完实际上可以做到比原来文件更清晰。当然这取决于源文件的清晰度和使用软件的人的技术水平。

关于有损压缩与图片的清晰度关系

假设处理分两大步骤/环节:

第1步:将原始图片A为处理为PSD等无损格式的图片B,如让文字更清晰、清除杂点、裁剪等。
第2步:将无损格式的图片B保存为目标格式C(比如jpg等有损格式),每一次保存都是有损压缩,虽然质量参数可以设为好一些,让肉眼感觉不出来,但其实质量损失都很严重。

  • 图片清晰度是针对第1步来说的,从A==》B:这取决于处理软件及使用者的水平,期间可以保存为多个不同版本的B1、B2…
  • 有损压缩是针对第2步来说的,从B==》C:尽量所有的图片处理都在第1步完成,最后在第2步一次性转换到C,避免B==》C1==》C2…等多次操作。

你的方案的问题

对图片的有损压缩处理的次数有点多:
1、先直接编辑PDF图片并保存为PDF,这其中的每一次保存就是一次对图片的有损压缩处理;
2、再用PDF压缩器压缩,又是一次对图片的有损处理。

完全可以避免质量下降的多余动作。

1 Like

你根本就没看到我的原始文件和处理完的文件就在这里空谈理论有点好笑。我根本就没去转出Photoshop自家的格式,而是在PDF文件里直接调用外部图片编辑软件去除了污点杂点和那背景色,结果是PDF最后看起来是比原来确实清晰了。这有点像一个带有噪音的MP3文件听起来很多噪音不舒服,但是用软件进行降噪之后听起来没有一点噪音比原来清晰很多一样。你说这降噪当然是有损,但是结果是获得了更清晰的文件。就像生病了你原本可以吃药治好,但是你感觉这药有点副作用。那不吃药的结果你只能靠身体一直挨着等到自行康复。
对于绝大多数人看PDF文件是看清晰度,不是看PDF文件背后代码是什么。所以你讲的那些损失对普通人没有任何用处。属于空谈理论。
我再跟你说一遍,直接在PDF文件里调用外部软件编辑PDF保存对于编辑的这个图片PDF编辑器不会进行压缩,不会进行压缩,不会进行压缩。所以文件越来越大。软件公司的工作人员解释过PDF里调用外部软件编辑的图片再次保存不会进行压缩。
如果保存的时候再次压缩,那肯定不会越编辑文件体积越大。

你想的太天真了,一次性处理完PDF里399页图片再保存,先不说你这想法有多么幼稚,这PDF编辑器就不提供一下子编辑这么多页文件再度保存。还是处理一点保存一点都好。当然几页处理完再保存是没问题。有点类似word软件的自动保存,如果你要编辑的word文件有399页,如果你要处理的时间大半天,如果你把自动保存的时间设置为一天,一旦你电脑软件出问题或者电池没电了或者停电了,那么你前面干的那些活都白干了,因为没有自动保存,因为你设置的自动保存的时间太长,还没到那个设置时间就出问题了,所以就白干了。
当然你的那种想法可以把PDF里的图片导出来一张张进行处理,处理完之后统一一下子再转成PDF。这种处理方式的问题在于你导出图片的时候图片是否有损失了,因为你没法知道原来制作PDF是使用什么软件转成的,是采用多少压缩比等等,所以你没法知道你采用的这个软件是否能够一丝没有改变原来pDF文件里的图片的质量导出来。你只能在处理完所有图片之后采用无损压缩转成PDF。

Vim兄,我看了下XChange Editor的图像编辑功能,原理很简单, 就是提取pdf内嵌图像object, 解码并保存为无损压缩的png,在其他图像编辑软件里编辑完成后,再把png转换为内嵌图像object,并更新pdf内容。

pdf的内嵌图像object是压缩过的,黑白图像可以是无损(JBIG2, CCITT3or4, Run Length等)或有损(JBIG2等),灰度和彩色图像可以是无损(PNG zip, TIFF zip等)或有损(JPEG, JPEG2000等)。具体哪个内嵌图像object用了哪种压缩方式, 可以查看对应object的属性相应字段。一般尺寸的扫描pdf文件,黑白图像用无损,灰度和彩图用有损方式存储比较多见。

具体到从中间的无损格式图像再转换回的内嵌图像object,和原始的内嵌图像object哪个大哪个小, 取决于图像编辑前后内容的变化,以及pdf编辑工具的对不同类型图像的压缩选项。

个人觉得批量导出无损格式图像,编辑完后再一次性转换为pdf,和在pdf编辑器里调用图像编辑软件逐个编辑,没有绝对的高下之分吧, 还是看应用场景。大量的批处理,前者效率明显更高;零散编辑的话,后者灵活性会更好。但是调用图像编辑软件再用有损方式存回内嵌图像object的情况,同一object编辑次数越多,有损压缩次数就会越多,需要考虑这种操作方式对图像质量的不利影响。

1 Like

学习了!

PDF编辑软件对图片的压缩机制,不同厂商有完全不同的处理机制,这有个学习成本和信任度问题。

我用了20多年Adobe的Photoshop和Acrobat,它们很专业,我也很熟悉和信任它们。只是Adobe的东西越来越贵,也越来越臃肿,后来逐渐转到开源/免费/轻量化(尽量但不强求)的方案,只是继承了Adobe的处理思路,这确实导致对其他新秀软件先入为主的偏见,不轻易接受 :sunglasses:

XChange Editor等PDF软件,我确实没有任何动力去使用,毕竟现在有很多免费又好用的替代方案。

按照你的逻辑每保存一次就进行一次有损压缩,按这个逻辑推理399页的文件编辑完最后一页保存后清晰度应该是从最不清晰到最清晰,或者直白的说前面的被压缩了快到400次了恐怕是没法看了。

实际上根本不是你说的这样。

另外我在这个视频录制时使用的那个PDF编辑器根本就不是Xchange Editor 。当然你也没直说我用的是这软件。

你完全不能理解我所说的话,不想进一步讨论了。

1 Like

你回帖都没看我给谁回的,你说的那么直白怎么可能看不懂,你感觉对于PDF编辑器这些软件很多免费的的比收费的好用。客观说别人又没有强迫你用收费的,使用免费和收费都是个人的选择问题。

你再往上的帖子无非表述压缩损失,无论是真损失还是假损失,使用者是看显示出来的效果和打印出来的效果,有几个人没事去关注软件如何编码是否损失的问题。