另一种可能：记一次利用html处理辞书索引ocr结果的尝试

random · 2021 年11 月 27 日 13:40

刚试了下，结论如下：
1.导出的识别结果没有任何html标签。
2.识别结果以行为单位。所以如果一行里既有中文又有英文，后期需要自己分离清洗数据
3. 中文识别率缺失牛逼。英文差点意思，尤其是单词被拆行的情况，比如一行末尾是ab-，另一行以andon起的话，一个单词的两部分无法连接起来，需要人工修正。（abbyy会自动修正）
4.英文的一些小细节处理的不太好，比如上下标的处理，很多时候数据丢失。
5. 一些特殊符号数据会丢失。
6. 很少的情况下，个别英文单词会丢失。
7. 词头不能单独识别出来（哪怕只有词头是黑体，其他内容regular）。对通过百度ocr一次性制作词库mdx很不友好。（如果所有词头都只有一个单词，且独立成行的话，也许可以通过正则找出词头。不过可能部分非词头内容，也单词独立成行，尤其是一句话的最后一个单词…）
8. 识别前如果pdf文件是分多栏的，必须先拆栏再识别，否则识别结果惨不忍睹（百度ocr会以行为单位，不区分多栏… 这点abbyy无敌，自动化合并多栏的内容，自动上下拼接）

结论：最好可以配合abbyy的识别结果，进行智能校对，方能达到最优效果。