《朗氏德汉双解大词典》文本数据（OCR）

Wankata · 2025 年10 月 5 日 15:48

Langenscheidt are dictionaries for language learners - in all languages. They provide simple explanations, sometimes with illustrations. But they do not provide in-depth knowledge - for beginners and intermediate levels they are not necessary. Try Duden.

Wankata · 2025 年10 月 5 日 15:50

Yes, but there is simply no such way, at least as far as I know. I suggested a solution - to use the already converted German-Chinese dictionaries of Langenscheidt or Duden.

last_idol · 2025 年10 月 5 日 16:03

找 10 个人提取中文手工插到 HTML 底本里就行了，和韦氏高阶双解的制作过程一模一样，现在 ai 可以介入应该更轻松一些。

wynick27 · 2025 年10 月 5 日 16:05

不需要这样，可以换个思路直接用中文版本，然后忽略中文对比两版差异，无条件应用德文文本就可以。或者两版都做文本解析，然后在语法树上直接操作。

mixivivo · 2025 年10 月 5 日 16:13

你这个设想不错，忽略中文对比两个版本的德文，然后直接用官方德文文本把OCR出来的德文给覆盖替换了，但细节还需要进一步研究、实验。

last_idol · 2025 年10 月 5 日 16:14

感觉这样复杂了，找一个德语群，直接从里面拉学生就行了。已经有两波人做过这个双解文本了，第一本是付费的，第二本就是不想付费的人拉小群做的。

Wankata · 2025 年10 月 5 日 16:29

You can get the comparison text in both languages from here (at least there will be no errors in recognition and automatic text splitting due to line breaks); it also has the latest version of the new German spelling from 2018 (copy/paste will be easier).

Good luck!

mixivivo · 2025 年10 月 5 日 16:31

搞过两波了，质量如何，怎么没见词典流传发布出来？这些人可真够可以的，独家之秘，传家之宝，切勿外泄。

last_idol · 2025 年10 月 5 日 16:38

和韦氏高阶一样，只有参与的人才能分享，只是一个拿出来卖了，一个没有。

mixivivo · 2025 年10 月 5 日 17:06

拉鲁斯在等 wynick27 兄根据清晰版图像制作新的image_pos.json词条坐标数据，旧版本,.这些符号肉眼都看不清，没法校对，而如果用全页图像比照，速度太慢。我自己也可以搞这个json数据，但相关代码是他写的，我没他熟练，就不越俎代庖了，碰巧的是，十一期间 nick 正在外面旅行，身边没电脑，那就只能缓一缓。

mixivivo · 2025 年10 月 6 日 09:17

用百度的 ERNIE-4.5-VL-28B-A3B 又识别提取了一遍《德汉小词典》，该模型指令服从能力差，输出文本格式混乱，千奇百怪，但就文字本身的准确度论，还是很不错的，可以与Gemini的OCR结果对比校对来纠错。比较软件建议使用Beyond Compare。

德汉小词典 - ERNIE.txt (2.3 MB)

mixivivo · 2025 年10 月 12 日 17:07

我已经把《朗氏德汉双解大词典》用 Gemini OCR了一遍。识别出来的文本尚未整理校对，或有各种错漏，上传到这里供参考，请谨慎使用。

文件见主帖更新。

mixivivo · 2025 年10 月 13 日 03:17

用合合也OCR了一遍，跟Gemini的数据粗略对比，感到这批文本的识别质量挺高，中德文文字本身讹误很少，主要毛病集中在标点和一些特殊符号上。

朗氏词典不打算细校了，干这个太耗费精力和时间，不过也创建了一个github repo （ GitHub - mahavivo/langenscheidt: 朗氏德汉双解大词典），主要批量修正某些明显的问题。

wynick27 · 2025 年10 月 13 日 10:16

这个是根据2010版还是2023版识别的啊

mixivivo · 2025 年10 月 13 日 17:00

用的是2010年的灰度图像版，2023年双色版解析度比较低，二者文字应该一样，没更改。

清晰度足够，朗氏词典里的文字、符号 Gemini 没有不认识的，它产生的错误，主要可能归咎于 LLM 内在的随机性。这种情况下，多次用同一 Gemini 模型识别，然后互校，也是一个不错的办法。

mixivivo · 2025 年10 月 14 日 03:07

我把用合合识别的结果也贴在这里，它格式混乱，不处理，直接对比文本困难。但可以挑选一定量的文本互相比较，看看ocr的错误率怎么样。

朗氏德汉双解大词典 - TextIn.txt (12.2 MB)

amob · 2025 年11 月 8 日 05:54

Duden Bibliothek能分享下吗？实在找不到3.0和5.2版本的词典数据库，以前网上的链接早就失效了。

mixivivo · 2025 年11 月 8 日 06:12

我这里是3.0版，体积比较大，5g，怎么传给你？

amob · 2025 年11 月 8 日 06:13

用任何你习惯的方式

mixivivo · 2025 年11 月 8 日 06:42

用 gofile 上传了，因为无法保证长期有效，就不公开分享了，私信发给你地址。

《朗氏德汉双解大词典》 文本数据（OCR）

《朗氏德汉双解大词典》文本数据（OCR）