《Encarta 英汉双解大词典》OCR 文本数据

wynick27 · 2025 年12 月 3 日 06:48

原版应该是Bloomsbury Concise English Dictionary
这本书可能由于文字密集，llm识别幻觉率非常高，我暂时没时间逐页对比，只和1500页之后 mixivivo 识别的文本对比修改了幻觉比较明显的地方。

25.12.13更新，修正幻觉错误页面。

endnote · 2025 年12 月 3 日 07:43

如果不追求百分百复原纸质版的话，一个省力些的做法是把OCR的中文部分、利用AI模糊匹配到英文版中的释义和例句。

不过在都可以用AI翻译OED的今天，OCR双解词典的必要性貌似不如以前了

sheik · 2025 年12 月 3 日 10:44

这本词典编得不好，不必费那么大力气做。

mixivivo · 2025 年12 月 3 日 11:03

原来也没想花大力气做，就是把文本识别出来，存为一个TXT，偶尔用得上，在终端或者文本编辑器里全文搜索。

不过如果幻觉严重，有时间还是需要设法检查一遍，否则有的地方会错得太离谱，就彻底等于没法用了。

sheik · 2025 年12 月 3 日 11:21

中文版是个混血儿，与英文版不好匹配。

shiruxue · 2025 年12 月 3 日 11:27

双解版有图片版的，英文版的有文字版的

sheik · 2025 年12 月 3 日 11:28

翻译质量不行，原版也不好。很多提示词与解释相同，看着不舒服。比如 abet 的释义和译文，很能说明问题。

mixivivo · 2025 年12 月 3 日 11:43

Encarta词典应该是搭配微软的Encarta百科全书的，商业公司也许想捞钱的项目，当然高明不到哪里去。10万量级的英文母语词典，双解翻译的没几本，可能就ODE 2 和Encarta，把Encarta也文本化了算是聊胜于无。

mixivivo · 2025 年12 月 3 日 12:10

前1500页可以考虑用Gemini 2.5 Flash再识别一遍，速度快，只为了检查幻觉的目的，准确率稍低也无所谓。

也能够跟夸克版文本对比，但二者格式不算很一致。

wynick27 · 2025 年12 月 3 日 12:27

夸克我之前写过脚本可以把docx转换的时候加上同样的分页标签，方便比较工具定位。其实格式统一之类的也可以一起做，不过可能不能保证一定正确。

shiruxue · 2025 年12 月 4 日 03:54

还有一本，英汉双解韦氏大学字典 Merriam-Webster’s Collegiate Dictionary，商务1923年出版的，坛里有。

Hannibal · 2025 年12 月 4 日 03:59

英文双解的价值我觉得很有限，除了翻译时看一看，别的时候没大用。

论坛中也早就有了很好的双解词典。

sheik · 2025 年12 月 4 日 04:47

这本太老了，没有做的价值

last_idol · 2025 年12 月 4 日 05:07

这本词典的历史地位很高，是民国当时最权威的英汉词典，而且围绕这本词典的版权官司，引起了特别大的轰动，算是近代中国出版史上最著名的涉外版权官司之一了。

sheik · 2025 年12 月 4 日 07:44

译文以当下语境审视，已过时不合适。

last_idol · 2025 年12 月 4 日 08:05

就是不合时宜才是其价值所在。

mixivivo · 2025 年12 月 4 日 11:29

民国版的《英汉双解韦氏大学字典》肯定有相当大的历史/语言文献价值和学术价值，但把这种老古董文本化，是非常困难的，不算论坛amateur玩家的当务之急。

last_idol · 2025 年12 月 4 日 12:27

klwo2 做的，感兴趣可以下载看看：

mixivivo · 2025 年12 月 4 日 12:57

民国时期的图书，按理说扫描比古籍简单容易，但我发现图像版普遍质量低劣，模糊不清，不知道原初扫书制作的人是怎么想的。

mixivivo · 2025 年12 月 4 日 13:09

我下载的《辞海》1936年版，《综合英汉大辞典》1948年版，《中华大字典》影印版，还有这本《英汉双解韦氏大学字典》（1928年版）全是这样，字迹漫漶不清，肉眼经常都看不大明白，更不用说把它们OCR文本化了。