词典OCR哪家强?

考虑的点:支持的文种(日、韩、俄……;简体、繁体:对于每种文种,可以考虑专攻此文种的OCR软件),支持横排/直排,支持自动识别分栏
用过 abbyy,感觉划分识别区域不够智能,恐怕不能胜任上千页的词典识别

多栏处理思路:为什么Abbyy和Acrobat在单栏索引的ocr上的表现都很差?
用老马的工具把内容框平移了再Briss裁剪成单栏

感觉不少坛友都在用Gemini识别。

AI识别现在能保留许多格式(黑体、下划线、标题等),多语种方面Gemini最好,但对汉语生僻字的识别能力很差。

国内方面,合合、Qwen、豆包都很好,但目前看见在多语种和格式还原上做得没有比Gemini好的。

但AI识别的问题在于时不时出现的幻觉,不过不多

1 Like

现在切分成单栏其实已经没必要了,各模型基本都能处理多栏文本。
根据我的经验中文生僻字用合合,夸克,paddleocr都不错,paddleocrvl 1.5在生僻字上有提升,但在版式识别上有时部分矩形框会丢失。
gemini综合恢复格式和你想让他加各种格式标记或者结构化输出的话比其他的模型强非常多。其他模型很多是只在ocr方面调优的,其他方面就不行了,但gemini幻觉是比较严重的,经常会丢失条目和自己编一堆条目,对排版比较密的幻觉率应该能超过10%,但多语种方面除了日韩国产模型都不行。
另外日语竖排文本夸克完全不行,经常错误当成横排然后旋转页面识别成乱码,合合容易输出为左右阅读的,gemini经常顺序错乱,paddleocr这方面很好。

2 Likes

比如有三栏的页面,这些模型都能准确按顺序输出吗?

是的,如果从左到右阅读的话顺序一般不会错。

比较关心价格问题,查到一个帖

Gemini什么价格?