另一种可能:记一次利用html处理辞书索引ocr结果的尝试

刚试了下,结论如下:
1.导出的识别结果没有任何html标签。
2.识别结果以行为单位。所以如果一行里既有中文又有英文,后期需要自己分离清洗数据
3. 中文识别率缺失牛逼。英文差点意思,尤其是单词被拆行的情况,比如一行末尾是ab-,另一行以andon起的话,一个单词的两部分无法连接起来,需要人工修正。(abbyy会自动修正)
4.英文的一些小细节处理的不太好,比如上下标的处理,很多时候数据丢失。
5. 一些特殊符号数据会丢失。
6. 很少的情况下,个别英文单词会丢失。
7. 词头不能单独识别出来(哪怕只有词头是黑体,其他内容regular)。对通过百度ocr一次性制作词库mdx很不友好。(如果所有词头都只有一个单词,且独立成行的话,也许可以通过正则找出词头。不过可能部分非词头内容,也单词独立成行,尤其是一句话的最后一个单词…)
8. 识别前如果pdf文件是分多栏的,必须先拆栏再识别,否则识别结果惨不忍睹(百度ocr会以行为单位,不区分多栏… 这点abbyy无敌,自动化合并多栏的内容,自动上下拼接)

结论:最好可以配合abbyy的识别结果,进行智能校对,方能达到最优效果。