建议使用abbyy管理索引ocr修订协作工作流

匿名1144 · 2021 年11 月 24 日 07:37

相比其他OCR软件，ABBYY除了识别准确度不错，重要的是还有建立项目的功能。如果一次识别之后来不及修订，可以先保存为项目。多人协同的时候，使用项目而不是pdf作为基础，一来省掉参与者各自ocr的麻烦，另一方面，出错的情况也会大致接近，便于统一处理。

索引一般是多栏格式，用“绘制表格区域”的方式要好过用文本区域。所得的结果可以导出为Excel或csv格式，如果格式良好的话可以一次成功。
首先选中索引区域，避免选中页码造成干扰。然后保存这个区域为模板，选中所有页面，在工具栏选择加载模板，这样就能批量设置需要识别的范围及其格式。这个模板可以重复使用，以后遇到类似的情况可以先在一页上加载然后微调，然后保存和应用到其他页面。

image1280×673 120 KB
修订时在保存这个选项选择格式化文本能快速找到要修订的地方，因为选择精确文本可能会造成文本无法全部显示。
修订的过程可以使用两个快捷键加快速度：
Alt+↓：下一个可能的错误，在上图中以蓝色标示。
Ctrl+↓：下一页
修订的过程中还可以对重复出现的问题做批量替换。

以高质量的项目文件为基础能够大大加快修订的过程。

如果直接输出为Excel或者文本文件，可能的结果是，索引的各个栏之间造成互相干扰的情况。这时候可以把保存选项设置为纯文本，然后逐栏选中并复制。这一步期待有更好的选项，毕竟这样做还是略有些麻烦，但熟练操作的话也是很快的。

image1175×798 214 KB
最后拷贝到Emeditor中，使用Ctrl+M这个快捷键，快速跳到下一个拼写检查出错的地方。当然，Emeditor的拼写检查会把英式英语拼写也当成错误，而且一些不常见的词汇也会被当成错误。用grammarly可能更好。

adwong · 2021 年11 月 25 日 04:00

如果能有高质量的图像+HTML输出，相信效率高过表格。
图像文件，供参考：

adwong · 2021 年11 月 25 日 04:45

以HTML输出中的标签元素作为判断标准，既可以不使用表格，又可以快速查阅被自动识别为表格的页面/部分，这次扫描中的向右侧箭头也可以识别出来，还是要比纯文本优势更多，而敝人之前用纯文本输出时似乎无法导出箭头：