【筹划】汉语成语源流大辞典 修订版 文字版+精准图片版

这就已经很说明问题了。不多一道工序进行分栏裁切,得出的ocr识别文本很难真的按栏线截然区隔开来。而且之所以言之再三需要用多个识别工具进行同异互校,就是为了能尽可能地把ocr错讹字符筛滤出来加以订正。慢工出细活,不用水磨工夫做出来的半成品就像白石皓皓君说的徒然诖误来学罢了。另者,精校文本还有一个好处就是可以进行二次利用,就比如作为训练语料挂载模型进行类义成语划分。