相比其他OCR软件,ABBYY除了识别准确度不错,重要的是还有建立项目的功能。如果一次识别之后来不及修订,可以先保存为项目。多人协同的时候,使用项目而不是pdf作为基础,一来省掉参与者各自ocr的麻烦,另一方面,出错的情况也会大致接近,便于统一处理。
-
索引一般是多栏格式,用“绘制表格区域”的方式要好过用文本区域。所得的结果可以导出为Excel或csv格式,如果格式良好的话可以一次成功。
-
首先选中索引区域,避免选中页码造成干扰。然后保存这个区域为模板,选中所有页面,在工具栏选择加载模板,这样就能批量设置需要识别的范围及其格式。这个模板可以重复使用,以后遇到类似的情况可以先在一页上加载然后微调,然后保存和应用到其他页面。
-
修订时在保存这个选项选择格式化文本能快速找到要修订的地方,因为选择精确文本可能会造成文本无法全部显示。
修订的过程可以使用两个快捷键加快速度:
Alt+↓:下一个可能的错误,在上图中以蓝色标示。
Ctrl+↓:下一页
修订的过程中还可以对重复出现的问题做批量替换。
以高质量的项目文件为基础能够大大加快修订的过程。
-
如果直接输出为Excel或者文本文件,可能的结果是,索引的各个栏之间造成互相干扰的情况。这时候可以把保存选项设置为纯文本,然后逐栏选中并复制。这一步期待有更好的选项,毕竟这样做还是略有些麻烦,但熟练操作的话也是很快的。
-
最后拷贝到Emeditor中,使用Ctrl+M这个快捷键,快速跳到下一个拼写检查出错的地方。当然,Emeditor的拼写检查会把英式英语拼写也当成错误,而且一些不常见的词汇也会被当成错误。用grammarly可能更好。