测试了abbyy finereader16的ocr。 此软件经常在数字和小数点之间识别出空格,如1.1.1会识别成 1 . 1 . 1。 而空格会干扰搜索,降低效率,是一个大问题。
请问有无办法让abbyy按以下逻辑运行?: 1.不在数字和小数点之间识别出空格? 2.不在两个汉字之间识别出空格?
谢谢!
我的做法是在ocr后用软件批量处理。
1.像这种情况,可以使用老马的textfoever,或者用Emeditor,做批量替换。 1 . 1 . 1
替换掉.之前和之后的空格。
2.汉字之间的空格,我自己写了一个小软件批量处理。
但是夹有英文的文本就没办法,只好由它去了。