用 PaddleOCR 生成 MRC 压缩 pdf

lamda05 · 2026 年6 月 24 日 02:46

目前分享的脚本会将图片、表格和图表用jpg压缩嵌入，其它内容黑白二值化，因此仅适用于单色书籍或单色带彩图的书籍。

提取图片尚未自动化（因为有些pdf可能有多个图片，自动化也容易出问题，任何情况都建议手动检查结果再处理），请使用 acrobat/pdfpatcher 等工具将图片保存至pdf同一目录下的 images 文件夹内，并按页码排序。

该脚本依赖之前的 OCR 工具（用 PaddleOCR 生成双层 pdf - 软件经验交流展望 - FreeMdict Forum），也需要在同样的环境下运行。如果二者不放在同一文件夹，请修改 run_pipeline_manual.py 里的路径。

运行方式：

python run_pipeline_manual.py [pdf名称]

将会自动执行压缩和 OCR，保存为带 _ocr 后缀的新文件。书签和页码结构将会保留。

mrc.7z (4.4 KB)

dong797 · 2026 年6 月 24 日 04:52

辛苦了，祝版主身体健康，万事如意