写了一个OCR文本和图像的三方对比校对工具 (2.7大更新,支持查找替换预览窗口)

现在新增了导出菜单,支持各种导出选项,但是注意需要填写正则表达式来寻找词头。正则表达式可以指定分组,词头位置会有蓝色高亮,然后导出时会根据正则的词头位置和内容进行匹配输出词条,支持json和mdx.txt两种格式。

如果有ocr数据还会根据ocr文本和当前文本对比来匹配图片坐标,并可以根据坐标自动切图,切图支持跨栏和跨页,(不过由于文本可能有不匹配和错位,不保证切图准确)

切图会保存到指定目录下的image_slices,自动以第几页_第几个词.jpg来命名。

竖排文本也支持合并:


也支持输出mdx.txt 原文件

导出的mdx.txt文件可以直接作为图文对照版使用