【求教】：关于双层pdf书籍的几个问题请教

leoleo · 2023 年10 月 10 日 14:39

如题，求教几个相关问题，

1，怎么判断一个pdf书籍是双层pdf？
有没有查看属性或参数这类的方法？（我只知道一个方法，试试该图像型pdf书籍能不能检索或复制，可以的话，就断定在图像层下面还有一层文本层。）

2，对于图像型pdf书籍，若优化页面显示，现在好像都是分三步走，先把pdf拆为图片，对图片进行批量优化，再把图片合成pdf。那么，对于双层的pdf书籍，需要先删除文本层，然后再将pdf拆为单张图片吗？

3，对于双层pdf书籍，上层是图像层，下层是文本层。
3.1，怎么删除文本层，只保留图像层呢？
3.2，怎么删除图像层，只保留文本层呢？
（这里，如果该文本层是通过ocr获得，比如用abbyy Finereader 16这类软件获得。那么，文本层的文字是根据图像层有排版的，比如缩进，或表格这类等。那么，在对双层pdf书籍删除图像层，只保留文本层时，希望文本层的格式或版面能够保持原样）

4，把一本pdf书籍拆为单张图片，是否需要注意进行“无损转换”？我看到老马强调有些软件不能做到无损转换。那么，实现这样功能的比较好的软件有哪个呢？

5，将图像型pdf书通过ocr软件转为双层pdf，我用过几款，比如adobe Acrobat，双层pdf的体积是原pdf的2倍，而用abbyy Finereader 15或16处理过，发现只增加一小点。这块不太明白，为什么有这么大差别？仅仅是增加了一层文本层，本不需要增加一倍的文件体积。

6，顺便一个问题，对图像型pdf书籍或双层pdf，进行压缩操作，有什么样的工具比较保真呢？

7，（追加一个问题）在adobe Acrobat打开双层pdf，例如下面这本，可以检索。但无法复制文本层的文字内容。（这个不算太影响，毕竟搞ocr双层主要是奔着检索去的，很少需要复制文字。实在需要，我是使用Quicker这个软件的截图OCR来解决）不知其他各位有什么阅读双层PDF时复制文本内容的好办法呢？

以上问题求教各位，多谢。

在阿里云盘放一本双层pdf书籍的例子，Quirk的语法书–A Comprehensive Grammar of English Language

例子_双层pdf书籍(a comprehensi…e grammar-Quirk)
https://www.aliyundrive.com/s/egHBdAbH7ep
提取码: c98u
点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速播放。

这本是扫描的图像型pdf，可能后来有人做了ocr。
大小200M，1804页。

白石晧晧 · 2023 年10 月 10 日 14:57

PDF的使命是在跨平台显示中最大程度保真。
也就是说，它所呈现的是一份档案的「定稿」。
因此，强行在pdf格式下加工、编辑是unreasonable的行为。

hzq1991 · 2023 年10 月 10 日 15:09

可以参考参考我这个帖子：

对简单的图片加文字可以比较容易分离，更复杂的就得找很专业的软件甚至自己写程序了。
pdf无损压缩推荐这个：
Ultra7z PDF Lossless Optimizer & Compressor 1.01 (English) (supercompression.ru)。
有损压缩一般不推荐。费不了多少空间，现在盘也便宜。除非自己扫描出来的源tiff。这种一般最好用老马的工具进行各种处理。处理的好的话，既能极大的压缩文件，还能提高质量。

hzq1991 · 2023 年10 月 10 日 15:17

很多时候这个pdf比你想的双层还要复杂，比如pdf既带位图又带矢量图，然后还有文字的（用adobe clear scanning得到的就是这种）。这种处理起来就很麻烦了。

leoleo · 2023 年10 月 10 日 15:44

完全赞同，之所以有数字版不用，去看扫描的pdf就是想要所谓的“定稿”。但若图像型pdf书太多页，就有一个小问题，有时想检索一个内容，就不太方便。这可能就是双层pdf出现的主要原因吧。对扫描得不清楚的pdf尽可能优化一下页面显示，或ocr一个文本层方便检索。这不算太过分吧。

Vim · 2023 年10 月 11 日 04:55

Q1A：能选择复制或查询即是双层PDF。

Q2A：对于图片优化，单双层处理方式没区别，不用先删除文本层。

Q3.1A：导出图片，重新生成一遍纯图片PDF。
Q3.2A：Adobe Acrobat之类，选中图片，删除。

Q4A：需要注意，无法分辨各软件品质，但出于对老马各种软件的信任，我喜欢用pdftoy，花钱买的其实是“放心”、不纠结。

Q5A：不知道为什么差别大，PDF格式是很复杂的东西，不是做开发的不用深究，应用上哪个舒服用哪个。我喜欢用老马的FreePic2Pdf + MODI_Engine，免费又好用。

Q6A：“压缩”有很多层面的理解，若论影响大、效果明显的，主要是图片处理，这涉及图形处理这个大领域，工具极其丰富，但核心是对图形图像基本知识的了解，以及对“保真”的理解，不同理解就有完全不同的处理方式。简单粗暴的：老马的ComicEnhancerPro，处理扫描类书籍就很不错，讲究的是批量处理；Adobe Photoshop、Illustrator等讲究的则是精细化处理，也能批量，强大又专业，但没有一定功力就不要碰了；其他替代品很多，挑自己喜欢的工具即可。

Q7A：双层PDF基本都是OCR来得，而OCR的效果，无论什么高级、智能、专业的软件，都没有特别好的，反正都是勉强使用，那就挑自己熟悉又方便的，我之前喜欢使用天若OCR，后来喜欢用微信（截图发给自己，打开即可复制），替代品很多，挑自己喜欢的工具即可。

leoleo · 2023 年10 月 11 日 15:43

非常感谢拨冗指导。几个问题再求教一下。

1，【解决】通过检索来判断。
2，【解决】
3, 对问题3.1，解决，方法就是先把pdf转换为单张图片，再合成。合成用老马的免费软件pic2pdf。这个软件在下载读秀的扫描电子书zip包后需要这个工具，我看到好几个工具是借用老马软件，主要是把pdg或pic转为pdf书籍。
问题3.2，【未解决】，我在Acrobat中适用，失败。打开首贴里面那本书，我摘录了一本前30页的小pdf书籍，2MB，在Acrobat中，选“编辑”工具，就失败了，提示：无法处理页面。（稍后我试试PDF Xchange Editor）
问题4，需要购买pdftoy，这个去博客网看到过，没有详细功能介绍和售价。我在找找免费的工具。
问题5和6，其实可以取消。一般也不太在乎体积，不太需要压缩。
问题7，【解决】在Acrobat中阅读双层pdf时无法直接复制，需要很琐碎步骤，先进入“编辑”工具，实际上是在编辑状态对页面处理。而一旦进入编辑状态，Acrobat会默认进行一次ocr，识别出文本。而且，首贴里面这本例子pdf书籍，进入编辑状态还失败了。但是，用PDFxchange editor阅读时，可以直接复制。

说到ocr，若是用Modi-engine，这个在老马博客加过详细教程，但这个工具只能一次支持一种语言。我一般是用abbyy fineread 16，用这个处理过三种语言的PDF书籍的ocr，ocr速度很快，可读性可以接受，而且文件体积增加很小。对清晰的扫描文本，字号不要太小，几乎是全部识别。我用过其他几种都比不上这个工具。

leoleo · 2023 年10 月 11 日 15:45

非常感谢指导。这个帖子里面介绍的内容有不少没看明白，不过里面好几个软件不错，而且，里面的PDFxchange editor是最新版本，正要升级一下。首贴里面这本例子，是最常遇到需要优化一下的pdf书籍的情况，若有空能不能请您再看看针对这个书，可以用哪些工具来优化一下，主要是取消这本书背景的眩晕色彩，太晃眼了。

hzq1991 · 2023 年10 月 12 日 00:57

我没云盘会员，就没下文件了。看你这文件扫描质量还行，又是英文的。推荐直接放弃文字层（估计这个也是别人ocr得到的，你处理完用最新的软件处理得到的ocr极有可能准确率更高）先无损提取文件图片，再用老马的工具二值化处理弄掉背景（这步处理很关键，我自己也只是简单玩玩，不是老手，你多试试，积累经验）。然后图片无损合成pdf。再用adobe clearscan扫一遍。这样能得到文件也小，字很多时候也会更清晰。

hzq1991 · 2023 年10 月 12 日 02:22

首先应该尽量找一个更好的扫描版本，英文书建议在：
Library Genesis Proxy Mirror Links: Libgen io, Libgen rs, Libgen is
里面找。

如果找不到更好的，就自己二值化处理什么的。

以你这本书为例，我在libgen找到一个别人处理好的版本。然后用adobe clear scan处理。最后用我说的那个pdf无损压缩压缩一下。得到下面的版本。
Randolph Quirk, Sidney G…e(书签版)_optimized.pdf
https://www.aliyundrive.com/s/x9gzp75jgnC

leoleo · 2023 年10 月 13 日 15:43

多谢回复，这个版本手头有，这个制作者在书中加了红色标注。