这个感觉是本坛的一个痛点。目前OCR的质量总是不尽人意,需要大量的人工校对。不知道有没有可能利用ChatGPT来辅助进行。
- 最优的当然是直接给图片的pdf,出结果。这个暂时没见到完整的方案。而且要进行图片处理似乎要gpt4.0了,成本太高。
- 事先用别的OCR软件(例如百度AI的OCR,质量已经相当可以)先出一个结果,然后喂给ChatGPT,由它来分析可能存在的错误。由于OCR中的错误往往会导致语句不通顺,而ChatGPT是能够理解语义的,可以指出那些明显的错误,提供修改意见。最后由人工扫一遍。
- 对校对结果进行格式整理。这个尤其是对中英文混排的词典很重要,删除多余的回车,区分中英文,按不同类别添加标签。
这里有个问题是,大量的文本处理似乎要消耗大量的token,免费账号能否顶得住。就算VIP账号,也有每次的token有限制,需要进行分割处理,似乎还是得有人写个项目。
2 Likes
demo
2
接触过 FineReader 微信客户端 QQ客户端 阿里云OCR 百度OCR Tesseract-ocr , 刻意构造一份有相似中文、字母、标点符号、数字的测试图片,都会有不同程度的出错,觉得用不同家的OCR识别结果来交叉验证是个可行的方向,只是使用成本有点高。个人觉得关键还是缺少一套类似众包平台的可以多人协同的校验平台,把需要校验的作品与对作品有兴趣的人组织起来协同完成这个艰巨的任务。
1 Like
主要问题就是现有的OCR不进行语义理解,只是死板地对图片进行分析识别,包括所谓的基于AI的OCR也是利用AI加强图片处理的能力而已。但是ChatGPT是能够理解语义的,包括你说的对多家OCR的识别结果进行交叉验证,这个工作我觉得ChatGPT没准也可以胜任。
demo
4
估计够呛,词典不是文章,以单字、词或独立句子为主,上下文环境信息比较少
感觉应该是从OCR的角度去解决精度问题啊
一般用途的OCR精度还行了,
和2楼说的一样,做词典是不是可以交互着来,比如abbyy一遍,baidu ocr来一遍,然后比对
实际上,阿里的达摩院做过识别古汉语的,先OCR一遍,然后把不对的发给专家去人工校对,据说效果还很好
有人工智能的大佬觉得这个应用方向很有用,说不定就很容易搞定了。个人觉得基础技术都有了,只要引导AI掌握了排版以及字体的规律,基本上可以根据语义了解光学识别的文本了,就可以解决99.9%的问题了。剩下的他就可以标注出来,让人工纠正就可以了。