词典制作周边工具(一)

词典制作周边工具(一)

使用ComicEnhancerPro+ABBYY FineReader制作词头索引

  1. 正文和索引图像准备
  • 页码之类的无关信息先用Acrobat剪裁去掉,以免影响ocr。
  • 导出PDF为tif或png,把词典正文和索引分开放在两个不同的文件夹。
  • 先用ComicEnhancerPro切边,确保索引图像左右页边距对称:
    • 参数框选择切边:
      • 自动_横排
      • 手动选择范围内自动选择;不计黑边
      • 页面大小:选择 内容框+页边空;页边空设置为0.1
      • 调整页面,确保文字在版心以内
  1. ScanTailor Advanced分割多栏索引为单栏
  • 一般来说,索引肯定会是多栏(词头···页码)这样的格式。
  • 为了方便abbyy识别,最好中间分割一下,顺便纠正偏斜。
  • 比如四栏索引,那就要切两次。因为ComicEnhancerPro已经处理了页边距,ScanTailor会自动识切到中间位置,相当方便。

下面进入正题:
3. Abbyy

  • 把单栏索引图像拖放abbyy中,先取消识别,因为自动识别的效果一定很差。
  • ocr语言设置: 中文词典的索引可能只有中文和数字,但语言还是应该选“简体中文和英文”,即便这可能带来一些乱码。其实有乱码的地方只选中文也是会错的。
  • 右键:CJK文本方向:选水平文本
  • Ctrl+A选中已经识别的部分,清空。然后重新绘制文本区域,只需要把词头汉字和页码都包含在框内即可。一般来说,区域越大越好,反正是单栏。
  • Ctrl+R识别第一页,看看效果
  • 如果效果好的话,那么:菜单-区域-保存区域模板
  • 点击第一页,选择:菜单-区域-加载区域模板,加载的时候选择应用到全部文档。
  • 初步整理校对
    • Ctrl+:arrow_up_down: 上/下一页;不断pagedown看看哪里出错。没有页码的乱码(例如“一画”)不用急着修复,最后用正则替换。
  • 初步完后,导出,保存为格式化文本,格式选txt格式,这样保存所得的索引词头和页码之间是tab分隔,用emeditor打开就能开始用正则处理。
  • 选中行尾为非数字的行:\D\n,替换。这样就基本上完成了索引的校对了。
4 Likes

多谢分享,学习一下

发现很多人回车换行符用\n,不知道这年头是否在linux系统下的人反而比在windows下的还多了?至今我好象还没有发现有\n作为回车换行的MDX(有的话请告诉我)
为了兼容性,最好还是用\r?\n表示回车换行吧!

1 Like