Pdf重制教程(图片重制、文字矢量化)(仓鼠症、强迫症重度患者适用)

电子书源当然是越高清越好。国外最近出版的书大都有矢量高清版,国内的基本只能靠高清扫描了。找书籍推荐新建标签页 (rus.ec)。中文书籍高清不知哪个网站比较好,同求网友指路。

0.一些软件

并行批处理MParallel :lordmulder/MParallel: MParallel — Parallel Batch Processor (github.com)

PDF简单处理软件PDFShaper:PDF Shaper Professional / Premium 11.6 Free Download - FileCR

mutool:MuPDF

现实图片超分辨Topaz Gigapixel :Topaz Gigapixel AI 6.0.0 Free Download - FileCR 3

二次元图片超分辨RealCUgan:nihui/realcugan-ncnn-vulkan: real-cugan converter ncnn version, runs fast on intel / amd / nvidia / apple-silicon GPU with vulkan (github.com)

高性能图片处理命令软件libvips:libvips/build-win64-mxe (github.com)

Adobe acrobat:Adobe Acrobat Pro DC 2022.001.20117 - FileCR

PDFXEdit:PDF-XChange Editor Plus 9.3.361.0 Free Download - FileCR

图片矢量化vector magic:https://cloud.freemdict.com/index.php/s/czwY2a683ZxY6Wm。

1.重制教程

(A)图片无损抽取

推荐用mutool,不容易出问题,也可使用PDFShaper的提取图片。我一般用以下批处理命令:

cd %~dp0
chcp 65001
dir /b *.pdf |MParallel --count=100  --stdin --no-split-lines --shell --auto-wrap --pattern="mkdir {{0:N}} "
dir /b *.pdf |MParallel --count=100  --stdin --no-split-lines --shell --auto-wrap --pattern="move {{0}}  {{0:N}}"
dir /b  /s  *.pdf |MParallel --count=1  --stdin --no-split-lines --shell --auto-wrap --pattern="cd  {{0:P}} && mutool.exe extract {{0}} "
@echo finish
(B)图片超分辨

对于3d,现实图片,推荐Gigapixel 。

对于2d,手绘卡通的。推荐Real-CUGAN。

(C)PDF去图片

使用PDF shaper–文档–移除元素,删除图像。

(D)图片压缩

超分辨后得到的png或tiff比较大。推荐用libvips压缩成jpeg(下述命令使用了mozjpeg,所以出来的jpeg同质量体积相对较小):

cd %~dp0
chcp 65001
dir /b /s  *.png *.bmp *.tiff |MParallel --count=4  --stdin --no-split-lines --auto-wrap --pattern="bin\vips.exe jpegsave {{0}}  --strip --optimize-coding --interlace  --optimize-scans  --trellis-quant --quant-table 3    {{0:N}}.jpeg --Q 85"
@echo finish
(E)图片合成PDF

要注意图片是否与原页面一一对应。要是图片不属于背景,就只能手工替换。推荐使用PDFshaper的图片转PDF功能合成。

(F)图片背景叠加文字

用PDFXEdit打开(C)得到的无图PDF,使用组织–覆盖,选择(E)得到的纯图PDF。右边可以预览页面是否正确。

(G)图片颜色问题

很多书图片是Adobe RGB。如果(F)步出来的pdf图片颜色不对,则需要在Acrobat–工具-- 印刷制作–转换颜色–转换配置:Adobe RGB。注意对象类型只选图片。

(H)文字矢量化

对于只有扫描版的书,特别是英文书。推荐使用acrobat的clearscan来将文字矢量化:工具–扫描和OCR–识别文本–设置–可编辑的文本和图像。

(I)图片矢量化

对于logo、简单2d彩绘、书法作品或者文字。可以使用vector magic矢量化,这个软件可谓图片矢量化最强软件,可惜若干年不更新了。

18 Likes

上面的超分对黑白纯文字扫描件友好否?之前试过几个,对黑白纯文字的效果聊胜于无

1 Like

今天我搜索了几个矢量化图片的软件,对于黑白图片的矢量化,推荐使用potrace http://potrace.sourceforge.net/ 。该软件只能矢量化黑白图片,但是对于优化电子书而言已经足够了。该软件可以将pnm以及bmp格式的图片矢量化为SVG、PDF、EPS、PostScript、DXF、GeoJSON、PGM、Gimppath 或XFig格式输出,但是一般日常使用的多为png、jpg、tiff等格式的图片,因此需要借助图片工厂将png、jpg、tiff等格式的图片转换为bmp格式的文件 图片工厂 Picosmos Tools ,然后再矢量化。

1 Like

这是优化效果,需要放大后仔细对比。当然,对于一般的使用该书的未优化版本已经足够了,但是对于一些重要的书籍以及扫描质量较差的书籍,就可以使用该软件优化。还有一个问题就是优化后的pdf文件过大,只需要pdf压缩一下即可,在该质量下,压缩结果仍处于清晰状态。

链接:https://pan.baidu.com/s/1i5nRle7WrkEIfndatQCDzQ?pwd=frtl
提取码:frtl
–来自百度网盘超级会员V2的分享

2 Likes

这矢量化跟二值化一样,缺少过渡与圆滑,你处理的pdf,有一些页面的长宽比没保持住

圆滑可以通过参数–alphamax调整,过度可能与控制贝塞尔曲线连接的参数有关,我还没有测试这几个参数。除了封面的那一页,其余页面的长宽比不是一样吗(俺还没注意过长宽比,都是默认的

:rofl: :rofl:

)?

1 Like

> 中文书籍高清不知哪个网站比较好

Z-Library. The world’s largest ebook library.: 大量中文书
具体镜像网址可能根据地点不太一样而且可能有时会有变化,http://b-ok.cc/ 这个用了一阵好像比较稳定。其实你给的那个 libgen 上也有不少中文书

Z-Library早就打不开了,https://elib.cc/网站也打不开了咳咳

需要梯子,不过有用爱发电的朋友们自己搭了个镜像网站,你可以去看看,如下: zlibrary最新可用的地址 持续更新

1 Like

在线浏览的,昨天晚上可能是百度云抽风了,今早再一看,好了

百度云有问题,如图

黑白纯文字不适合超分辨。要是扫描质量还可以,选择矢量化比较合适。如果扫描质量太差,那基本无力回天,只能等更佳的扫描本。

potrace也不错的,速度是最快的。clearscan有时会有些莫名其妙的bug,有时我就会用potrace。不过只能黑白确实有点不爽,而且操作起来也有点麻烦(要先拆再处理再组合)。矢量化软件已经很久没什么更新了,这个市场太小。

1 Like

说起来现在AI upscaling这么发达,就没人专门训练一个针对文字的。其实常用字体就那么一些,大多数字体其实也很相像,训练一个引擎出来效果应该会很好。

有一个以potrace为蓝本的矢量化彩色图片的项目 【自荐】位图转彩色矢量 SVG 图片 —— Color Trace - 发现频道 - 小众软件官方论坛 。作者说效果比vtracer好,俺也没试过。不过从昨天到现在,俺还是觉得你处理的物理学大词典效果最好。

1 Like

问个问题,扫描版 pdf 矢量化后对提高 OCR 精度有没有帮助?

OCR软件好像不支持矢量图,不过我想如果矢量化软件的效果好,那么再把矢量化的图片转成高分辨率再OCR按理说准确率能提升,但是如果矢量化的效果不好导致丢失了部分笔画也可能导致相反的效果。
其实现在AI OCR的准确性相当可以了,纯中文或纯英文的,300dpi的扫图基本上好几页才会有错字,中英文混排的主要的错漏也在标点、特殊符号之类的上面。目前主要的问题是没有配套的软件,比如最起码的,连个去掉换行符的功能都没有。

1 Like

终于知道比如 archive.org 里的 PDF 中封面图(或全彩图中)奇怪虚化文字可能的产生原因。

由于之前与读秀图书资源打交道的经历,扫描件图像处理、排序及合成PDF还是用老马的套件多些,不过文字矢量化确实是老马软件未接触到的。

基于 clearscan 做了一本图书,可以看看效果:

  • 书目: Sliverman 的 Essential Calculus with Applications
  • SSID 40530587
  • MD5 E5B00EAEBA8EBD9145DFB0049D8E5BF6

https://library.bz/main/uploads/E5B00EAEBA8EBD9145DFB0049D8E5BF6

不知国内网络可否继续跳转:

感谢分享,可否分享一下Gigapixel模型,网上的模型都失效了
找到了:百度网盘 请输入提取码 提取码8888