中英pdf双语对照

  • 论坛里有不少关于中英对照的帖子,但主要针对txt。

  • 对于专业的、图文混排的书,相信pdf依然是首选。

  • 面对其中大块的en_pdf,如正好有翻译的zh_pdf,整合一份en_zh对照pdf或许是个不错的选择。

  • 以下是个人的思路,主要用pymupdf模块实现。

  1. 给en,zh打好书签(最好有精确的point位置), 两个书签下的条目要一一对应
    – 文字版pdf书签用软件好弄些,扫描版费事
    – 书签级别越详细,后面双语对齐越准,同时也越费事。

  2. 将en,zh的pdf按书签处理,即通过页面裁剪,合并,一个书签条目对应一页pdf
    – 如果两个相邻书签条目相距较远,合并页可能很长(几百厘米)。需要回过头在中间设立书签。
    – 如果裁剪出来的页面有较大的空白区域,需要继续去白边(openCV),让合并后页面紧凑。

  3. 最后将两个按书签处理后的pdf按一页两栏(en_zh)合并成en_zh.pdf。

示例:

如您有更好的想法或工具,欢迎交流分享。

2 个赞