《杜登德汉大词典》OCR 文本数据

这个是最大的德汉词典,原版是《 Duden Deutsches Universalworterbuch》,我把它用夸克和Gemini各识别了一遍,Gemini识别版本已经检查过没有缺页,但是没有检查是不是有幻觉错误,识别的时候让它把词头标记了,同时用markdown表示法处理粗体词组。这个德语是有电子版文本的,可以对比修正问题。

夸克版:
杜登德汉大词典 上册.docx (8.8 MB)
杜登德汉大词典 下册.docx (8.9 MB)

Gemini版:
杜登德汉大词典 上册_gemini.txt (9.7 MB)
杜登德汉大词典 下册_gemini.txt (9.8 MB)

3 个赞

用Gemini 3 Pro似乎识别效果更好,但成本有点高。

词典算1000万字,粗估1000万token,按照Gemini 3 Pro输入2美金,输出12美金计算,2m输入(3000页x600),10M输出,识别下来124美金,880元人民币。

思考也要算Token吧,实际应该更贵,而且感觉差别不是很大。3能正确区分全角半角逗号了,不错。

3 Pro现在只有low和high两个thinking level选项,就OCR而言,其实都不合适,据说未来会添加medium的选项。一次送25页,thinking token占比应该比较低。

pdf哪里可以下载

zlib和anna都有啊