《Encarta 英汉双解大词典》OCR 文本数据

原版应该是Bloomsbury Concise English Dictionary
这本书可能由于文字密集,llm识别幻觉率非常高,我暂时没时间逐页对比,只和1500页之后 mixivivo 识别的文本对比修改了幻觉比较明显的地方。

25.12.13更新,修正幻觉错误页面。

Encarta 英汉双解大词典_gemini.zip (11.8 MB)

附带一个夸克识别版本:
Encarta 英汉双解大词典_quark.7z.002 (10.3 MB)
Encarta 英汉双解大词典_quark.7z.001 (20 MB)

6 个赞

如果不追求百分百复原纸质版的话,一个省力些的做法是把OCR的中文部分、利用AI模糊匹配到英文版中的释义和例句。

不过在都可以用AI翻译OED的今天,OCR双解词典的必要性貌似不如以前了

这本词典编得不好,不必费那么大力气做。

原来也没想花大力气做,就是把文本识别出来,存为一个TXT,偶尔用得上,在终端或者文本编辑器里全文搜索。

不过如果幻觉严重,有时间还是需要设法检查一遍,否则有的地方会错得太离谱,就彻底等于没法用了。

中文版是个混血儿,与英文版不好匹配。

双解版有图片版的,英文版的有文字版的

翻译质量不行,原版也不好。很多提示词与解释相同,看着不舒服。比如 abet 的释义和译文,很能说明问题。

Encarta词典应该是搭配微软的Encarta百科全书的,商业公司也许想捞钱的项目,当然高明不到哪里去。10万量级的英文母语词典,双解翻译的没几本,可能就ODE 2 和Encarta,把Encarta也文本化了算是聊胜于无。

前1500页可以考虑用Gemini 2.5 Flash再识别一遍,速度快,只为了检查幻觉的目的,准确率稍低也无所谓。

也能够跟夸克版文本对比,但二者格式不算很一致。

夸克我之前写过脚本可以把docx转换的时候加上同样的分页标签,方便比较工具定位。其实格式统一之类的也可以一起做,不过可能不能保证一定正确。

还有一本, 英汉双解韦氏大学字典 Merriam-Webster’s Collegiate Dictionary,商务1923年出版的,坛里有。

2 个赞

英文双解的价值我觉得很有限,除了翻译时看一看,别的时候没大用。

论坛中也早就有了很好的双解词典。

这本太老了,没有做的价值

这本词典的历史地位很高,是民国当时最权威的英汉词典,而且围绕这本词典的版权官司,引起了特别大的轰动,算是近代中国出版史上最著名的涉外版权官司之一了。

译文以当下语境审视,已过时不合适。

就是不合时宜才是其价值所在。

1 个赞

民国版的《 英汉双解韦氏大学字典》肯定有相当大的历史/语言文献价值和学术价值,但把这种老古董文本化,是非常困难的,不算论坛amateur玩家的当务之急。

1 个赞

klwo2 做的,感兴趣可以下载看看:

链接:https://pan.baidu.com/s/1IUyINtst9RbFkMnr6vSGDw?pwd=6rir
提取码:6rir

民国时期的图书,按理说扫描比古籍简单容易,但我发现图像版普遍质量低劣,模糊不清,不知道原初扫书制作的人是怎么想的。

我下载的《辞海》1936年版,《综合英汉大辞典》1948年版,《中华大字典》影印版,还有这本《英汉双解韦氏大学字典》(1928年版)全是这样,字迹漫漶不清,肉眼经常都看不大明白,更不用说把它们OCR文本化了。