《朗氏德汉双解大词典》 文本数据(OCR)

这个是根据2010版还是2023版识别的啊

用的是2010年的灰度图像版,2023年双色版解析度比较低,二者文字应该一样,没更改。

清晰度足够,朗氏词典里的文字、符号 Gemini 没有不认识的,它产生的错误,主要可能归咎于 LLM 内在的随机性。这种情况下,多次用同一 Gemini 模型识别,然后互校,也是一个不错的办法。

我把用合合识别的结果也贴在这里,它格式混乱,不处理,直接对比文本困难。但可以挑选一定量的文本互相比较,看看ocr的错误率怎么样。

朗氏德汉双解大词典 - TextIn.txt (12.2 MB)