不知道能否利用ChatGPT进行OCR校对工作

zambast · 2023 年4 月 20 日 10:39

这个感觉是本坛的一个痛点。目前OCR的质量总是不尽人意，需要大量的人工校对。不知道有没有可能利用ChatGPT来辅助进行。

最优的当然是直接给图片的pdf，出结果。这个暂时没见到完整的方案。而且要进行图片处理似乎要gpt4.0了，成本太高。
事先用别的OCR软件（例如百度AI的OCR，质量已经相当可以）先出一个结果，然后喂给ChatGPT，由它来分析可能存在的错误。由于OCR中的错误往往会导致语句不通顺，而ChatGPT是能够理解语义的，可以指出那些明显的错误，提供修改意见。最后由人工扫一遍。
对校对结果进行格式整理。这个尤其是对中英文混排的词典很重要，删除多余的回车，区分中英文，按不同类别添加标签。

这里有个问题是，大量的文本处理似乎要消耗大量的token，免费账号能否顶得住。就算VIP账号，也有每次的token有限制，需要进行分割处理，似乎还是得有人写个项目。

demo · 2023 年4 月 21 日 06:14

接触过 FineReader 微信客户端 QQ客户端阿里云OCR 百度OCR Tesseract-ocr ，刻意构造一份有相似中文、字母、标点符号、数字的测试图片，都会有不同程度的出错，觉得用不同家的OCR识别结果来交叉验证是个可行的方向，只是使用成本有点高。个人觉得关键还是缺少一套类似众包平台的可以多人协同的校验平台，把需要校验的作品与对作品有兴趣的人组织起来协同完成这个艰巨的任务。

zambast · 2023 年4 月 21 日 06:48

主要问题就是现有的OCR不进行语义理解，只是死板地对图片进行分析识别，包括所谓的基于AI的OCR也是利用AI加强图片处理的能力而已。但是ChatGPT是能够理解语义的，包括你说的对多家OCR的识别结果进行交叉验证，这个工作我觉得ChatGPT没准也可以胜任。

demo · 2023 年4 月 21 日 07:53

估计够呛，词典不是文章，以单字、词或独立句子为主，上下文环境信息比较少

dictionaryfan · 2023 年4 月 21 日 09:09

感觉应该是从OCR的角度去解决精度问题啊
一般用途的OCR精度还行了，
和2楼说的一样，做词典是不是可以交互着来，比如abbyy一遍，baidu ocr来一遍，然后比对
实际上，阿里的达摩院做过识别古汉语的，先OCR一遍，然后把不对的发给专家去人工校对，据说效果还很好

nihaocool · 2023 年4 月 22 日 01:00

有人工智能的大佬觉得这个应用方向很有用，说不定就很容易搞定了。个人觉得基础技术都有了，只要引导AI掌握了排版以及字体的规律，基本上可以根据语义了解光学识别的文本了，就可以解决99.9%的问题了。剩下的他就可以标注出来，让人工纠正就可以了。

David · 2023 年11 月 13 日 04:31

adobe 毛熊家的破解版 OCR 就很好啊，识别率高，还都给自动对比了，个人认为免费的天花板了。而且现在GPT4套壳很多，其中sider就支持 OCR . 时至今日，绝对不是痛点了，这问题应该到此结束了基本

nihaocool · 2023 年11 月 14 日 03:18

OCR百分百还原原文本的历史已经到来了？

zambast · 2023 年11 月 14 日 05:39

早着呢，比如我想的是平均一页都不用改一个字，随便扫扫全都对；但是有些用户就觉得98%、99%的准确率就挺好了。
目前的实际情况是即便是那些号称用了AI技术的，准确率也还是那么回事，真要校对改得累死，那些传统的OCR，依旧是那样半死不活的

Izanami · 2023 年11 月 14 日 07:57

你好，请问在哪儿可以下载到破解的Adobe呢？

Frank404 · 2023 年11 月 14 日 09:42

这种大众热门软件，破解发布的地址可太多了
如果想用官方原版然后patch，就去搜一下genp
如果想直接用修改好的，就去搜m0nkrus

David · 2023 年12 月 16 日 05:25

哦我很少在线，才看到哈，找到了么

Argue · 2024 年3 月 3 日 08:14

可能暂时技术还不成熟。

gtxxeon · 2024 年3 月 3 日 12:04

我觉得gpt4能够胜任文字检查，可以给出少量材料试一下，发现可能错了的地方标记出来，再人工对比原文档

Thx4dicts · 2024 年3 月 11 日 06:23

Adobe Acrobat最大的短板就是不支持双语识别

zambast · 2024 年3 月 16 日 15:38

我去用Claude3试了试，大致上可用，但是也挺麻烦。
Claude3的opus目前可以读取200K的文件，但是输出就比较少。我试了一份77K的全英文OCR结果让它校正，大概需要分五次输出（过一段时间点一下Tell me more）。然后复制粘贴下来，比对一下看修正了些什么。基本上常见的OCR错误（空格丢失、I识别出l，等等）都修正了。有趣的是连原文的错误也一起修正了。甚至于尽管我强调了修正错误而不要改动原文，还是把一两处改成了更符合英文习惯的表达。
接下来我试试中英文混排的如何。
不过还是有点麻烦，最好是有做好的脚本什么的。不过目前Claude的API申请还挺麻烦的，不像pro账号可以淘宝买。
GPT的问题是读取的量太小，不过应该可以分拆。GPT4太贵太慢，按理说校对这种事情3.5也够用了，不知道有没有现成的工具。