原版应该是Bloomsbury Concise English Dictionary
这本书可能由于文字密集,llm识别幻觉率非常高,我暂时没时间逐页对比,只和1500页之后 mixivivo 识别的文本对比修改了幻觉比较明显的地方。
Encarta 英汉双解大词典_gemini.zip (11.7 MB)
附带一个夸克识别版本:
Encarta 英汉双解大词典_quark.7z.002 (10.3 MB)
Encarta 英汉双解大词典_quark.7z.001 (20 MB)
原版应该是Bloomsbury Concise English Dictionary
这本书可能由于文字密集,llm识别幻觉率非常高,我暂时没时间逐页对比,只和1500页之后 mixivivo 识别的文本对比修改了幻觉比较明显的地方。
Encarta 英汉双解大词典_gemini.zip (11.7 MB)
附带一个夸克识别版本:
Encarta 英汉双解大词典_quark.7z.002 (10.3 MB)
Encarta 英汉双解大词典_quark.7z.001 (20 MB)
如果不追求百分百复原纸质版的话,一个省力些的做法是把OCR的中文部分、利用AI模糊匹配到英文版中的释义和例句。
不过在都可以用AI翻译OED的今天,OCR双解词典的必要性貌似不如以前了
这本词典编得不好,不必费那么大力气做。
原来也没想花大力气做,就是把文本识别出来,存为一个TXT,偶尔用得上,在终端或者文本编辑器里全文搜索。
不过如果幻觉严重,有时间还是需要设法检查一遍,否则有的地方会错得太离谱,就彻底等于没法用了。
中文版是个混血儿,与英文版不好匹配。
双解版有图片版的,英文版的有文字版的
翻译质量不行,原版也不好。很多提示词与解释相同,看着不舒服。比如 abet 的释义和译文,很能说明问题。
Encarta词典应该是搭配微软的Encarta百科全书的,商业公司也许想捞钱的项目,当然高明不到哪里去。10万量级的英文母语词典,双解翻译的没几本,可能就ODE 2 和Encarta,把Encarta也文本化了算是聊胜于无。
前1500页可以考虑用Gemini 2.5 Flash再识别一遍,速度快,只为了检查幻觉的目的,准确率稍低也无所谓。
也能够跟夸克版文本对比,但二者格式不算很一致。
夸克我之前写过脚本可以把docx转换的时候加上同样的分页标签,方便比较工具定位。其实格式统一之类的也可以一起做,不过可能不能保证一定正确。
还有一本, 英汉双解韦氏大学字典 Merriam-Webster’s Collegiate Dictionary,商务1923年出版的,坛里有。
英文双解的价值我觉得很有限,除了翻译时看一看,别的时候没大用。
论坛中也早就有了很好的双解词典。
这本太老了,没有做的价值
这本词典的历史地位很高,是民国当时最权威的英汉词典,而且围绕这本词典的版权官司,引起了特别大的轰动,算是近代中国出版史上最著名的涉外版权官司之一了。