Pdf重制教程(图片重制、文字矢量化)(仓鼠症、强迫症重度患者适用)

上面的超分对黑白纯文字扫描件友好否?之前试过几个,对黑白纯文字的效果聊胜于无

1 Like

今天我搜索了几个矢量化图片的软件,对于黑白图片的矢量化,推荐使用potrace http://potrace.sourceforge.net/ 。该软件只能矢量化黑白图片,但是对于优化电子书而言已经足够了。该软件可以将pnm以及bmp格式的图片矢量化为SVG、PDF、EPS、PostScript、DXF、GeoJSON、PGM、Gimppath 或XFig格式输出,但是一般日常使用的多为png、jpg、tiff等格式的图片,因此需要借助图片工厂将png、jpg、tiff等格式的图片转换为bmp格式的文件 图片工厂 Picosmos Tools ,然后再矢量化。

1 Like

这是优化效果,需要放大后仔细对比。当然,对于一般的使用该书的未优化版本已经足够了,但是对于一些重要的书籍以及扫描质量较差的书籍,就可以使用该软件优化。还有一个问题就是优化后的pdf文件过大,只需要pdf压缩一下即可,在该质量下,压缩结果仍处于清晰状态。

链接:百度网盘-链接不存在
提取码:frtl
–来自百度网盘超级会员V2的分享

2 Likes

这矢量化跟二值化一样,缺少过渡与圆滑,你处理的pdf,有一些页面的长宽比没保持住

圆滑可以通过参数–alphamax调整,过度可能与控制贝塞尔曲线连接的参数有关,我还没有测试这几个参数。除了封面的那一页,其余页面的长宽比不是一样吗(俺还没注意过长宽比,都是默认的

:rofl: :rofl:

)?

1 Like

> 中文书籍高清不知哪个网站比较好

Z-Library. The world’s largest ebook library.: 大量中文书
具体镜像网址可能根据地点不太一样而且可能有时会有变化,http://b-ok.cc/ 这个用了一阵好像比较稳定。其实你给的那个 libgen 上也有不少中文书

Z-Library早就打不开了,https://elib.cc/网站也打不开了咳咳

需要梯子,不过有用爱发电的朋友们自己搭了个镜像网站,你可以去看看,如下: zlibrary最新可用的地址 持续更新 无限次数下载zlib书籍

1 Like

在线浏览的,昨天晚上可能是百度云抽风了,今早再一看,好了

百度云有问题,如图

黑白纯文字不适合超分辨。要是扫描质量还可以,选择矢量化比较合适。如果扫描质量太差,那基本无力回天,只能等更佳的扫描本。

potrace也不错的,速度是最快的。clearscan有时会有些莫名其妙的bug,有时我就会用potrace。不过只能黑白确实有点不爽,而且操作起来也有点麻烦(要先拆再处理再组合)。矢量化软件已经很久没什么更新了,这个市场太小。

1 Like

说起来现在AI upscaling这么发达,就没人专门训练一个针对文字的。其实常用字体就那么一些,大多数字体其实也很相像,训练一个引擎出来效果应该会很好。

有一个以potrace为蓝本的矢量化彩色图片的项目 【自荐】位图转彩色矢量 SVG 图片 —— Color Trace - 发现频道 🔍 - 小众软件官方论坛 。作者说效果比vtracer好,俺也没试过。不过从昨天到现在,俺还是觉得你处理的物理学大词典效果最好。

1 Like

问个问题,扫描版 pdf 矢量化后对提高 OCR 精度有没有帮助?

OCR软件好像不支持矢量图,不过我想如果矢量化软件的效果好,那么再把矢量化的图片转成高分辨率再OCR按理说准确率能提升,但是如果矢量化的效果不好导致丢失了部分笔画也可能导致相反的效果。
其实现在AI OCR的准确性相当可以了,纯中文或纯英文的,300dpi的扫图基本上好几页才会有错字,中英文混排的主要的错漏也在标点、特殊符号之类的上面。目前主要的问题是没有配套的软件,比如最起码的,连个去掉换行符的功能都没有。

1 Like

终于知道比如 archive.org 里的 PDF 中封面图(或全彩图中)奇怪虚化文字可能的产生原因。

由于之前与读秀图书资源打交道的经历,扫描件图像处理、排序及合成PDF还是用老马的套件多些,不过文字矢量化确实是老马软件未接触到的。

基于 clearscan 做了一本图书,可以看看效果:

  • 书目: Sliverman 的 Essential Calculus with Applications
  • SSID 40530587
  • MD5 E5B00EAEBA8EBD9145DFB0049D8E5BF6

https://library.bz/main/uploads/E5B00EAEBA8EBD9145DFB0049D8E5BF6

不知国内网络可否继续跳转:

感谢分享,可否分享一下Gigapixel模型,网上的模型都失效了
找到了:https://pan.baidu.com/s/12AeugeSILQGOfCDfYi0kJw#list/path=%2F 提取码8888

感谢分享,过来学习