用 PaddleOCR 生成 MRC 压缩 pdf

最近处理这个词典(American Heritage Dictionary of the English 50周年版 - 资源分享 / 电子书 - FreeMdict Forum)时研究了一下MRC压缩,也把成果分享出来。

目前分享的脚本会将图片、表格和图表用jpg压缩嵌入,其它内容黑白二值化,因此仅适用于单色书籍或单色带彩图的书籍。

提取图片尚未自动化(因为有些pdf可能有多个图片,自动化也容易出问题,任何情况都建议手动检查结果再处理),请使用 acrobat/pdfpatcher 等工具将图片保存至pdf同一目录下的 images 文件夹内,并按页码排序。

该脚本依赖之前的 OCR 工具(用 PaddleOCR 生成双层 pdf - 软件经验交流展望 - FreeMdict Forum),也需要在同样的环境下运行。如果二者不放在同一文件夹,请修改 run_pipeline_manual.py 里的路径。

运行方式:

python run_pipeline_manual.py [pdf名称]

将会自动执行压缩和 OCR,保存为带 _ocr 后缀的新文件。书签和页码结构将会保留。

mrc.7z (4.4 KB)

辛苦了,祝版主身体健康,万事如意