词典制作周边工具(一)
使用ComicEnhancerPro+ABBYY FineReader制作词头索引
- 正文和索引图像准备
- 页码之类的无关信息先用Acrobat剪裁去掉,以免影响ocr。
- 导出PDF为tif或png,把词典正文和索引分开放在两个不同的文件夹。
- 先用ComicEnhancerPro切边,确保索引图像左右页边距对称:
- 参数框选择切边:
- 自动_横排
- 手动选择范围内自动选择;不计黑边
- 页面大小:选择 内容框+页边空;页边空设置为0.1
- 调整页面,确保文字在版心以内
- 参数框选择切边:
- ScanTailor Advanced分割多栏索引为单栏
- 一般来说,索引肯定会是多栏(词头···页码)这样的格式。
- 为了方便abbyy识别,最好中间分割一下,顺便纠正偏斜。
- 比如四栏索引,那就要切两次。因为ComicEnhancerPro已经处理了页边距,ScanTailor会自动识切到中间位置,相当方便。
下面进入正题:
3. Abbyy
- 把单栏索引图像拖放abbyy中,先取消识别,因为自动识别的效果一定很差。
- ocr语言设置: 中文词典的索引可能只有中文和数字,但语言还是应该选“简体中文和英文”,即便这可能带来一些乱码。其实有乱码的地方只选中文也是会错的。
- 右键:CJK文本方向:选水平文本
- Ctrl+A选中已经识别的部分,清空。然后重新绘制文本区域,只需要把词头汉字和页码都包含在框内即可。一般来说,区域越大越好,反正是单栏。
- Ctrl+R识别第一页,看看效果
- 如果效果好的话,那么:菜单-区域-保存区域模板
- 点击第一页,选择:菜单-区域-加载区域模板,加载的时候选择应用到全部文档。
- 初步整理校对
- Ctrl+
上/下一页;不断pagedown看看哪里出错。没有页码的乱码(例如“一画”)不用急着修复,最后用正则替换。
- Ctrl+
- 初步完后,导出,保存为格式化文本,格式选txt格式,这样保存所得的索引词头和页码之间是tab分隔,用emeditor打开就能开始用正则处理。
- 选中行尾为非数字的行:\D\n,替换。这样就基本上完成了索引的校对了。