FreeMdict Forum

词典制作周边工具（一）

技术交流与词典编修

hkreporter 2021 年1 月 29 日 11:20 1

词典制作周边工具（一）

使用ComicEnhancerPro+ABBYY FineReader制作词头索引

正文和索引图像准备

页码之类的无关信息先用Acrobat剪裁去掉，以免影响ocr。
导出PDF为tif或png，把词典正文和索引分开放在两个不同的文件夹。
先用ComicEnhancerPro切边，确保索引图像左右页边距对称：
- 参数框选择切边：
  - 自动_横排
  - 手动选择范围内自动选择；不计黑边
  - 页面大小：选择内容框+页边空；页边空设置为0.1
  - 调整页面，确保文字在版心以内

ScanTailor Advanced分割多栏索引为单栏

一般来说，索引肯定会是多栏（词头···页码）这样的格式。
为了方便abbyy识别，最好中间分割一下，顺便纠正偏斜。
比如四栏索引，那就要切两次。因为ComicEnhancerPro已经处理了页边距，ScanTailor会自动识切到中间位置，相当方便。

下面进入正题：
3. Abbyy

把单栏索引图像拖放abbyy中，先取消识别，因为自动识别的效果一定很差。
ocr语言设置：中文词典的索引可能只有中文和数字，但语言还是应该选“简体中文和英文”，即便这可能带来一些乱码。其实有乱码的地方只选中文也是会错的。
右键：CJK文本方向：选水平文本
Ctrl+A选中已经识别的部分，清空。然后重新绘制文本区域，只需要把词头汉字和页码都包含在框内即可。一般来说，区域越大越好，反正是单栏。
Ctrl+R识别第一页，看看效果
如果效果好的话，那么：菜单-区域-保存区域模板
点击第一页，选择：菜单-区域-加载区域模板，加载的时候选择应用到全部文档。
初步整理校对
- Ctrl+ 上/下一页；不断pagedown看看哪里出错。没有页码的乱码（例如“一画”）不用急着修复，最后用正则替换。
初步完后，导出，保存为格式化文本，格式选txt格式，这样保存所得的索引词头和页码之间是tab分隔，用emeditor打开就能开始用正则处理。
选中行尾为非数字的行：\D\n，替换。这样就基本上完成了索引的校对了。

词典制作问题求助

新手入门科普

weshor 2021 年1 月 30 日 11:01 2

多谢分享，学习一下

lbhl 2021 年2 月 14 日 02:22 3

发现很多人回车换行符用\n，不知道这年头是否在linux系统下的人反而比在windows下的还多了？至今我好象还没有发现有\n作为回车换行的MDX（有的话请告诉我）
为了兼容性，最好还是用\r?\n表示回车换行吧！