建议使用abbyy管理索引ocr修订协作工作流

相比其他OCR软件,ABBYY除了识别准确度不错,重要的是还有建立项目的功能。如果一次识别之后来不及修订,可以先保存为项目。多人协同的时候,使用项目而不是pdf作为基础,一来省掉参与者各自ocr的麻烦,另一方面,出错的情况也会大致接近,便于统一处理。

  1. 索引一般是多栏格式,用“绘制表格区域”的方式要好过用文本区域。所得的结果可以导出为Excel或csv格式,如果格式良好的话可以一次成功。

  2. 首先选中索引区域,避免选中页码造成干扰。然后保存这个区域为模板,选中所有页面,在工具栏选择加载模板,这样就能批量设置需要识别的范围及其格式。这个模板可以重复使用,以后遇到类似的情况可以先在一页上加载然后微调,然后保存和应用到其他页面。

  3. 修订时在保存这个选项选择格式化文本能快速找到要修订的地方,因为选择精确文本可能会造成文本无法全部显示。
    修订的过程可以使用两个快捷键加快速度:
    Alt+↓:下一个可能的错误,在上图中以蓝色标示。
    Ctrl+↓:下一页
    修订的过程中还可以对重复出现的问题做批量替换。

以高质量的项目文件为基础能够大大加快修订的过程。

  1. 如果直接输出为Excel或者文本文件,可能的结果是,索引的各个栏之间造成互相干扰的情况。这时候可以把保存选项设置为纯文本,然后逐栏选中并复制。这一步期待有更好的选项,毕竟这样做还是略有些麻烦,但熟练操作的话也是很快的。

  2. 最后拷贝到Emeditor中,使用Ctrl+M这个快捷键,快速跳到下一个拼写检查出错的地方。当然,Emeditor的拼写检查会把英式英语拼写也当成错误,而且一些不常见的词汇也会被当成错误。用grammarly可能更好。

3 Likes

如果能有高质量的图像+HTML输出,相信效率高过表格。
图像文件,供参考:

以HTML输出中的标签元素作为判断标准,既可以不使用表格,又可以快速查阅被自动识别为表格的页面/部分,这次扫描中的向右侧箭头也可以识别出来,还是要比纯文本优势更多,而敝人之前用纯文本输出时似乎无法导出箭头: