谷歌OCR Vs. 合合OCR

random · 2024 年9 月 29 日 17:42

更新一下最新比较（2024年9月30日）：

谷歌的DocumentAI今年八月份更新了一个OCR处理器版本后，中文识别准确率提升了不少，可以媲美合合了，有些场景甚至完全超越了合合OCR。英文识别更是超越国内所有OCR服务！

谷歌新的OCR处理器版本：

谷歌OCR（DocumentAI）和合合OCR（通用文档解析）效果实测对比：

Google DocumentAI 我愿称之为地球最强OCR
而且价格实惠，仅为合合OCR价格的10%
简直良心。

补充一下：
谷歌最近推出了几个高级特性，比如判断font style等等，价格涨了4倍，如果开启这些高级特性，比如用来提取黑体词头，综合价格就接近合合的价格了，不过还是更便宜一些。

p.s.
经last_idol提醒，合合的“通用文档”只包含下面几种类型：
支持标准的金融报告、国家标准、论文、企业招投标文件、合同、文书、工程图纸等文档内容。
可能不支持上面的普通电子书PDF，所以识别准确率差。

不过只支持上面几种文档的话，我觉得不适合叫“通用”文档解析，应该改为“特殊文档解析”比较恰当。

p.p.s

用合合的“通用文本识别”接口，可能会大幅提高准确率，但因为我没有这个接口的额度了，暂时无法测试验证。

mixivivo · 2024 年10 月 1 日 03:52

谷歌Document AI的api太难用了，各种文档跳了几十个页面，都不知道在说什么，严重官僚化和形式主义。

random · 2024 年10 月 1 日 13:39

确实。不过都有示例代码，可以拷贝下，也可以问下Gemini或者ChatGPT

DocumentAI的好处是可以配合谷歌的云存储，直接把PDF传到云存储里，然后再OCR，这种OCR超多页文档的时候，比本地一页页上传-OCR模式快很多，尤其是考虑到国内OCR都设置了QPS限制（每秒最多OCR1页等等），几万页的文档的话，慢慢等吧…

不过单文档页数有限制，好像500页，几万页的PDF，需要拆分成多个PDF，每个400页即可，然后上传到谷歌云存储进行OCR即可，比国内OCR快很多倍

iandros · 2024 年10 月 2 日 01:15

請問價格分別為多少？

random · 2024 年10 月 2 日 09:54

1.5美元+6美元（高级特性）+云存储费用+消费税

Celestin · 2024 年11 月 13 日 06:42

弱弱问一下，在这些在线OCR面前，ABBYY的finereader已经没有竞争力了吗？我感觉中文识别finereader准确率不是很好。

a11 · 2024 年11 月 13 日 08:05

肯定的，Document AI是生成式AI，而且还可以自己训练。

last_idol · 2024 年11 月 13 日 13:36

参考下面的链接，可以自行对比下 FineReader 的准确率：

mixivivo · 2025 年5 月 11 日 02:01

chrome的最新版本加入了扫描版pdf的OCR功能，好像是本地模型识别的，不知道能不能把模型提取出来，或者做一个可以其他程序调用的接口？

轻松获取扫描版 PDF 中的所需信息

轻松在扫描版 PDF 中搜索、选择或复制所需信息，Chrome 让您事半功倍

扫描版 PDF 让您头疼？别担心，用 Chrome PDF 查看器轻松查看和操作。

不用等待，即刻开启 PDF 交互体验。

随心搜索、选择或复制所需信息。

image1018×572 65 KB

mixivivo · 2025 年5 月 11 日 02:08

像在苹果机器上，就有一个套壳程序调用 Apple Vision 的OCR 模块：apple_ocr GitHub - louisbrulenaudet/apple-ocr: Easy-to-Use Apple Vision wrapper for text extraction, scalar representation and clustering using K-means.

last_idol · 2025 年5 月 11 日 03:51

Chrome 浏览器那个是不开源的，没法调用。苹果和微软自带的文本识别引擎在中文识别的准确率上，没有微信自带的那个离线的好，微信的很多人封装后给其他程序调用，开源项目很多但只能微软的设备上使用。

mixivivo · 2025 年5 月 11 日 05:00

微信ocr会调用两种不同的识别办法，一种是本地模型，一种是云识别。云识别比较强，而本地模型在识别生僻字方面跟百度开源的PaddleOCR差不多，搞明白这个状况后我就不大关心微信OCR了。

初步测试我觉得chrome的OCR能力要强于微信和百度的本地OCR模型，但目前它有些怪癖，比如中文里的标点符号倾向于用半角，有时灵，有时无效等。这些可能要等后续的更新了，Google既然打算推出这个功能，应该会持续跟进改善。