【求教】:关于双层pdf书籍的几个问题请教

如题,求教几个相关问题,

1,怎么判断一个pdf书籍是双层pdf?
有没有查看属性或参数这类的方法?(我只知道一个方法,试试该图像型pdf书籍能不能检索或复制,可以的话,就断定在图像层下面还有一层文本层。)

2,对于图像型pdf书籍,若优化页面显示,现在好像都是分三步走,先把pdf拆为图片,对图片进行批量优化,再把图片合成pdf。那么,对于双层的pdf书籍,需要先删除文本层,然后再将pdf拆为单张图片吗?

3,对于双层pdf书籍,上层是图像层,下层是文本层。
3.1,怎么删除文本层,只保留图像层呢?
3.2,怎么删除图像层,只保留文本层呢?
(这里,如果该文本层是通过ocr获得,比如用abbyy Finereader 16这类软件获得。那么,文本层的文字是根据图像层有排版的,比如缩进,或表格这类等。那么,在对双层pdf书籍删除图像层,只保留文本层时,希望文本层的格式或版面能够保持原样)

4,把一本pdf书籍拆为单张图片,是否需要注意进行“无损转换”?我看到老马强调有些软件不能做到无损转换。那么,实现这样功能的比较好的软件有哪个呢?

5,将图像型pdf书通过ocr软件转为双层pdf,我用过几款,比如adobe Acrobat,双层pdf的体积是原pdf的2倍,而用abbyy Finereader 15或16处理过,发现只增加一小点。这块不太明白,为什么有这么大差别?仅仅是增加了一层文本层,本不需要增加一倍的文件体积。

6,顺便一个问题,对图像型pdf书籍或双层pdf,进行压缩操作,有什么样的工具比较保真呢?

7,(追加一个问题)在adobe Acrobat打开双层pdf,例如下面这本,可以检索。但无法复制文本层的文字内容。(这个不算太影响,毕竟搞ocr双层主要是奔着检索去的,很少需要复制文字。实在需要 ,我是使用Quicker这个软件的截图OCR来解决)不知其他各位有什么阅读双层PDF时复制文本内容的好办法呢?

以上问题求教各位,多谢。

在阿里云盘放一本双层pdf书籍的例子,Quirk的语法书–A Comprehensive Grammar of English Language

例子_双层pdf书籍(a comprehensi…e grammar-Quirk)
https://www.aliyundrive.com/s/egHBdAbH7ep
提取码: c98u
点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。

这本是扫描的图像型pdf,可能后来有人做了ocr。
大小200M,1804页。

1 个赞

PDF的使命是在跨平台显示中最大程度保真
也就是说,它所呈现的是一份档案的「定稿」。
因此,强行在pdf格式下加工、编辑是unreasonable的行为。

可以参考参考我这个帖子:

对简单的图片加文字可以比较容易分离,更复杂的就得找很专业的软件甚至自己写程序了。
pdf无损压缩推荐这个:
Ultra7z PDF Lossless Optimizer & Compressor 1.01 (English) (supercompression.ru)
有损压缩一般不推荐。费不了多少空间,现在盘也便宜。除非自己扫描出来的源tiff。这种一般最好用老马的工具进行各种处理。处理的好的话,既能极大的压缩文件,还能提高质量。

3 个赞

很多时候这个pdf比你想的双层还要复杂,比如pdf既带位图又带矢量图,然后还有文字的(用adobe clear scanning得到的就是这种)。这种处理起来就很麻烦了。

完全赞同,之所以有数字版不用,去看扫描的pdf就是想要所谓的“定稿”。但若图像型pdf书太多页,就有一个小问题,有时想检索一个内容,就不太方便。这可能就是双层pdf出现的主要原因吧。对扫描得不清楚的pdf尽可能优化一下页面显示,或ocr一个文本层方便检索。这不算太过分吧。

Q1A:能选择复制或查询即是双层PDF。

Q2A:对于图片优化,单双层处理方式没区别,不用先删除文本层。

Q3.1A:导出图片,重新生成一遍纯图片PDF。
Q3.2A:Adobe Acrobat之类,选中图片,删除。

Q4A:需要注意,无法分辨各软件品质,但出于对老马各种软件的信任,我喜欢用pdftoy,花钱买的其实是“放心”、不纠结。

Q5A:不知道为什么差别大,PDF格式是很复杂的东西,不是做开发的不用深究,应用上哪个舒服用哪个。我喜欢用老马的FreePic2Pdf + MODI_Engine,免费又好用。

Q6A:“压缩”有很多层面的理解,若论影响大、效果明显的,主要是图片处理,这涉及图形处理这个大领域,工具极其丰富,但核心是对图形图像基本知识的了解,以及对“保真”的理解,不同理解就有完全不同的处理方式。简单粗暴的:老马的ComicEnhancerPro,处理扫描类书籍就很不错,讲究的是批量处理;Adobe Photoshop、Illustrator等讲究的则是精细化处理,也能批量,强大又专业,但没有一定功力就不要碰了;其他替代品很多,挑自己喜欢的工具即可。

Q7A:双层PDF基本都是OCR来得,而OCR的效果,无论什么高级、智能、专业的软件,都没有特别好的,反正都是勉强使用,那就挑自己熟悉又方便的,我之前喜欢使用天若OCR,后来喜欢用微信(截图发给自己,打开即可复制),替代品很多,挑自己喜欢的工具即可。

2 个赞

非常感谢拨冗指导。几个问题再求教一下。

1,【解决】通过检索来判断。
2,【解决】
3, 对问题3.1,解决,方法就是先把pdf转换为单张图片,再合成。合成用老马的免费软件pic2pdf。这个软件在下载读秀的扫描电子书zip包后需要这个工具,我看到好几个工具是借用老马软件,主要是把pdg或pic转为pdf书籍。
问题3.2,【未解决】,我在Acrobat中适用,失败。打开首贴里面那本书,我摘录了一本前30页的小pdf书籍,2MB,在Acrobat中,选“编辑”工具,就失败了,提示:无法处理页面。(稍后我试试PDF Xchange Editor)
问题4,需要购买pdftoy,这个去博客网看到过,没有详细功能介绍和售价。我在找找免费的工具。
问题5和6,其实可以取消。一般也不太在乎体积,不太需要压缩。
问题7,【解决】在Acrobat中阅读双层pdf时无法直接复制,需要很琐碎步骤,先进入“编辑”工具,实际上是在编辑状态对页面处理。而一旦进入编辑状态,Acrobat会默认进行一次ocr,识别出文本。而且,首贴里面这本例子pdf书籍,进入编辑状态还失败了。但是,用PDFxchange editor阅读时,可以直接复制。

说到ocr,若是用Modi-engine,这个在老马博客加过详细教程,但这个工具只能一次支持一种语言。我一般是用abbyy fineread 16,用这个处理过三种语言的PDF书籍的ocr,ocr速度很快,可读性可以接受,而且文件体积增加很小。对清晰的扫描文本,字号不要太小,几乎是全部识别。我用过其他几种都比不上这个工具。

非常感谢指导。这个帖子里面介绍的内容有不少没看明白,不过里面好几个软件不错,而且,里面的PDFxchange editor是最新版本,正要升级一下。首贴里面这本例子,是最常遇到需要优化一下的pdf书籍的情况,若有空能不能请您再看看针对这个书,可以用哪些工具来优化一下,主要是取消这本书背景的眩晕色彩,太晃眼了。

我没云盘会员,就没下文件了。看你这文件扫描质量还行,又是英文的。推荐直接放弃文字层(估计这个也是别人ocr得到的,你处理完用最新的软件处理得到的ocr极有可能准确率更高)先无损提取文件图片,再用老马的工具二值化处理弄掉背景(这步处理很关键,我自己也只是简单玩玩,不是老手,你多试试,积累经验)。然后图片无损合成pdf。再用adobe clearscan扫一遍。这样能得到文件也小,字很多时候也会更清晰。

首先应该尽量找一个更好的扫描版本,英文书建议在 :
Library Genesis Proxy Mirror Links: Libgen io, Libgen rs, Libgen is
里面找。

如果找不到更好的,就自己二值化处理什么的。

以你这本书为例,我在libgen找到一个别人处理好的版本。然后用adobe clear scan处理。最后用我说的那个pdf无损压缩压缩一下。得到下面的版本。
Randolph Quirk, Sidney G…e(书签版)_optimized.pdf
https://www.aliyundrive.com/s/x9gzp75jgnC

多谢回复,这个版本手头有,这个制作者在书中加了红色标注。