《朗氏德汉双解大词典》 文本数据(OCR)

更新:

我已经把这本词典用 Gemini OCR了一遍。识别出来的文本尚未整理校对,或有各种错漏,上传到这里供参考,请谨慎使用。

朗氏德汉双解大词典.txt (11.6 MB)


自从做了《拉鲁斯法汉双解词典》OCR(文本化)之后,我觉得“朗氏德汉双解大词典”也可以搞一搞,不过这本词典的格式更复杂、使用的特殊符号更多,识别难度相应水涨船高。

大略估算,以我个人之力也可以初步完成,但需要投入的时间精力比较多,因此在此调查一下是否有其他同好原意参与进来,加快进度。

OCR用的工具是 Google 的 Gemini 2.5 Pro,其他市面上的模型/软件应该还干不了这个活。对参与者的要求也不高,需要:

1)有Google账号,可以登录Google 的 ai studio,从而获得API key;2)知道如何运行python程序,执行我提供的脚本代码和prompt。

也许需要5位左右的志愿参与者。

在这里先贴一个识别效果的样张,诸位评鉴一下质量和可行性:

〈730〉

Ge·ne·ral·ver·tre·ter der; -s, - j-d, der in e-m bestimmten Gebiet den Verkauf von Versicherungen od. von Produkten e-r Firma leitet u. betreut 总代表, 总代理, 全权代理人 || hierzu〔派生〕Ge·ne·ral·ver·tre·te·rin die;

Ge·ne·ral·ver·tre·tung die

Ge·ne·ra·ti·on [-'tsjo:n] die; - , -en 1. alle Menschen, die ungefähr gleich alt sind 辈, 代⟨die junge, ältere, heutige G. 年轻的, 较老的, 今天的一代; die G. der Eltern, der Kinder 父母辈, 子女辈⟩; e-e Meinungsumfrage unter der G. der Zwanzig- bis Dreißigjährigen durchführen 在20和30岁之间的一代人中进行民意调查 2. e-e Stufe in der zeitlichen Abfolge von Nachkommen u. Vorfahren e-r Familie, z. B. Großeltern, Eltern, Kinder (家族中的)代, 辈, 世: Seit drei Generationen wohnt Familie Meier in München 迈耶尔一家三代一直居住在慕尼黑 || K-〔复合〕: Generations-wechsel 3. ein Zeitraum von etwa dreißig Jahren 一代(的时间), 一个时代 ⟨in/vor zwei, drei usw Generationen 在两代、三代的时间里/在两代、三代以前⟩ 4. alle Maschinen, Geräte o. Ä., die auf dem gleichen Stand der Entwicklung stehen 一代(处于同一发展水平的)产品: e-e neue G. von Computern 新一代电子计算机(电脑)

Ge·ne·ra·ti·o·nen·ver·trag der; nur Sg (只用单数) das System, nach dem die Renten e-r Generation jeweils von der nächsten Generation bezahlt werden 隔代支付养老金合同

Ge·ne·ra·ti·ons·kon·flikt [-'tsjo:ns-] der; Probleme u. Konflikte zwischen jüngeren u. älteren Menschen (z. B. Kindern u. ihren Eltern), die verschiedene Ansichten u. Lebensweisen haben 代沟, 代际冲突

Ge·ne·ra·tor der; -s, Ge·ne·ra·to·ren; e-e Maschine, die elektrischen Strom erzeugt 发电机 ≈ Dynamo

ge·ne·rell Adj (形); nicht auf e-n einzelnen, bestimmten Fall beschränkt, sondern allgemein 普通的, 普遍的, 一般(适用)的 ↔ speziell ⟨e-e Entscheidung, e-e Lösung, ein Problem 决定, 解决办法, 问题; etw. g. ablehnen, erlauben, verbieten 一般性地拒绝、允许、禁止某事⟩: Er hat e-e generelle Abneigung gegen alle Milchprodukte 凡是奶制品, 他都不喜欢

ge·ne·rös, generöser, generösest-; Adj (形); geschr〔书〕≈ großzügig 慷慨大方的, 豪爽的, 丰厚的 ⟨ein Geschenk 礼物⟩ || hierzu Ge·ne·ro·si·tät die; nur Sg (只用单数)

Ge·ne·se die; - , -n; die G. + Gen (二格); geschr〔书〕≈ Entstehung (die G. e-r Krankheit, e-s Romans 疾病的形成, 长篇小说的产生)

ge·ne·sen (von etw.) g. genesen; ist genesen; Ⅵ (不及物) geschr〔书〕; nach e-r Krankheit wieder gesund werden 痊愈, 病愈, 复元 ↔ (an etw.) erkranken || hierzu〔派生〕Ge·ne·sen·de der/die; -n, -n

Ge·ne·sis, Ge·ne·sis die; -; nur Sg, REL (只用单数)〔宗〕; die Geschichte von der Erschaffung der Welt, wie sie in der Bibel steht(圣经旧约中的)创世纪 ≈ Schöpfungsgeschichte

Ge·ne·sung die; - , -en; mst Sg (多用单数); (j-s) G. (von etw.) das Gesundwerden, Genesen 痊愈, 康复, 复原 ⟨j-m e-e baldige, schnelle G. wünschen 祝愿某人早日痊愈, 迅速康复; sich auf dem Wege der G. befinden 正在病愈康复中⟩ || K-〔复合〕: Genesungs-prozess, -urlaub

ge·ne·tisch Adj (形) 1. die Erbanlagen betreffend 遗传的, 生物起源的 ⟨ein Experiment, e-e Manipulation 实验, 控制⟩; e-e Krankheit mit genetischen Ursachen 遗传性疾病; die genetische Information in den Körperzellen 人体细胞的遗传信息 2. die Wirkung der Vererbung betreffend 遗传作用的, 遗传学的 ⟨Forschungen, Untersuchungen 研究, 探讨⟩ || hierzu〔派生〕Ge·ne·tik die; -; nur Sg (只用单数)

ge·ni·al [-'nia:l] Adj (形) 1. nicht adv (不作状语); mit e-r außergewöhnlich großen intellektuellen u./od. künstlerischen Begabung 天才的, 独创的 ≈ hoch begabt ⟨ein Erfinder, ein Künstler 发明家, 艺术家⟩ 2. außergewöhnlich klug, gut (gemacht) 绝妙的, 独到的 ↔ mittelmäßig ⟨e-e Erfindung, e-e Idee, ein Kunstwerk 发明, 见解, 艺术品⟩ || hierzu〔派生〕Ge·ni·a·li·tät die; nur Sg (只用单数)

Ge·nick das; -(e)s, -e; mst Sg (多用单数); der hintere Teil des Halses 后颈, 脖颈 ⟨j-m/sich das G. brechen 断送, 毁了某人/自己, 把某人搞垮; 使某人失败/破产, 失败, 遇难, 出事故⟩: Von der Zugluft bekam sie ein steifes G. 因穿堂风, 她的脖子吹僵了 || :up_arrow: Abb. unter 见图 Mensch || K-〔复合〕: Genick-, -starre || ID〔谚〕etw. bricht j-m das G. gespr〔口〕; etw. ruiniert j-n/j-s Karriere 某事毁了某人的前途

Ge·nie [ʒe’ni:] das; -s, -s 1. ein Mensch mit ganz außergewöhnlicher Begabung 天才, 天才人物 ⟨ein großes, verkanntes G. 伟大的、被埋没的天才⟩: Sie ist ein mathematisches G. 她是一位数学天才 2. nur Sg (只用单数); geniale Fähigkeiten 才能, 才华, 天赋 ⟨G. besitzen, haben 具备才能, 享有天赋⟩: das G. e-s Malers 画家的天赋; Seine Bilder zeugen von großem G. 他的画作证明他很有才华

ge·nie·ren sich [ʒe-]; genierte sich, hat sich geniert; Vr (反身) sich G. geschr〔口〕; etw. verlegen fühlen, weil man etw. als peinlich empfindet 害羞, 感到不自在, 不好意思, 受拘束, 难为情 ≈ sich schämen ⟨sich vor j-m g. 在某人面前感到拘束⟩: Sie genierte sich in ihrem neuen Bikini 穿着新比基尼泳装, 她感到难为情

ge·nieß·bar Adj (形); nicht adv (不作状语); mst 多用 etw. ist nicht mehr g. e-e Speise, ein Getränk o. Ä. schmeckt nicht mehr, ist verdorben o. Ä. 某物不能再食用了 || ID〔谚〕mst 多用 Er/Sie ist nicht g. gespr〔口〕; er/sie ist schlecht gelaunt u. unfreundlich 他/她脾气不好(情绪很坏) || hierzu〔派生〕Ge·nieß·bar·keit die; nur Sg (只用单数)

ge·nie·ßen, genoss, hat genossen; Vt (及物) 1. etw. g. Freude, Genuss bei etw.

3 个赞

上面的图片样本,引用自 朗氏德汉双解大词典(2023新) 在线版 ,原帖主应该重新扫描了比较清晰的2023年版《朗氏德汉双解大词典》,不过已在线发布的图像质量一般,如果得不到这个清晰图像,也可以用2010年的图像底本,它是灰度图片,差别不算很大。

2010年版,样张如下:

贴一下初步的prompt,以及前20页的OCR识别样本。

system instruction:

OCR,识别提取pdf文件当中的文字。要求如下:

  1. 页眉部分表示页码的阿拉伯数字,置于“〈〉”符号之中,(页眉同一行的其余索引文字删除不要),且把它放在输出最开始的位置,下面加一空行;假如不存在页码,用“〈?〉”占位表示。
  2. 这是一本德汉词典,注意德文的正确拼写,不要忽略变音符号。
  3. 页面左右分栏,识别阅读顺序为先左栏再右栏。
  4. 正文部分首尾要完整识别,不要遗漏内容。
  5. 每一个词条的黑体字词头请放入【】符号内,以和词条的释义内容互相区分。
  6. 在不同的词条之间空一行。
  7. 识别结果以plain text格式输出,不要添加多余的markdown标记等。
  8. 文中用放在方框内的Vi、Vt、Vt/i、Vimp等表示动词的类别,请把它们置于〔〕当中,分别用〔Vi〕〔Vt〕〔Vt/i〕〔Vimp〕表示。
  9. 你的默认输出长度限制是65536个token,把它用足,不要偷懒。
  10. 每一个pdf文件有20页,需要全部识别,不要没完成任务就半途中断。

切记,下面这里是至关重要的要求和标准,务必满足:同一词条中的相关释义文字要编辑合并在一个自然段落里,不可像图中那样因为版面限制而断开分行。

朗氏德汉双解大词典P1-20.pdf (6.1 MB)

识别结果:

识别文本1-20.txt (110.8 KB)

看来感兴趣的人不多,而且这本词典OCR、后续制作的难度更高,那就暂且搁置吧,我先做好《拉鲁斯法汉双解词典》的文本化再说。

文本化、校对《朗氏德汉双解大词典》难度很高,根据我的试验、研究,在目前的技术条件下,应该是不可行,或者说成本太高代价太大,得不偿失。

作为弥补,我搞了一个德语词典的小项目,把《德汉小词典》( PDF下载 https://annas-archive.li/md5/127bcd5ffc7234f083424c860ea8afd6 )给OCR、文本化了。

词典封底的广告:

简明、实用、携带方便。
全书收词40000余条,涵盖德语常用词汇以及广泛使用的新词、外来词、固定短语、谚语俗语。
外来词加注音标。
符合最新德语正字法规则。
附有常用德语缩略语表和不规则变化动词表。

识别用的工具是Gemini,文字准确度还可以,偶见错谬,也是不关键成分,不过我现在尚没有计划对之校核修正。先把文本贴在这里,供感兴趣者参考。因为对词头部分加了特别标记,用正则或者python脚本把它直接转成mdx词典应该很容易。

我也用其他OCR引擎识别过,错误率太高,没什么对比参考价值,就不上传分享了。

〈1〉

A ➜ n. -,-①【物】安培(Ampere)的符号②【喻】最初,起始 || das A und O 1)核心,关键2)始末/von A bis Z 从头至尾,彻底地③【乐】A大调(A-Dur)的简写

Aal ➜ m. -(e)s,-e【动】鳗鲡,鳝鱼|| sich winden wie ein Aal(尽力)企图摆脱险境(或困境)

aalen ➜ I V.i. 捕鳗鱼 II refl. 【口】①伸展四肢懒懒散散地躺着②懒散,混日子

aalglatt ➜ Adj. 圆滑的,滑头的

Aas ➜ n. -es,-e/Aser I〈复数:-e)(动物的)腐尸 II〈复数:Aser〉【口,贬】无赖,坏蛋;娼妇,臭女人 || kein ~【粗】连个鬼都没有

aasen ➜ V.i. 【口】浪费,糟蹋

aasig ➜ I Adj. ①腐烂发臭的②下流的,令人作呕的 II Adv. 非常

ab ➜ I Adv. ①脱离,离开,卸去②下来,下去③减去 || auf und ab 1)来来回回2)上上下下/ab und zu 有时/Ab durch die Mitte!【俗】快走开 II Präp.〈表示数量、时间,支配第三格或第四格>从…起

ab... ➜ (前缀〉表示:①离开,分开,清除②减少③开始④向下⑤收回,取消⑥结束⑦用坏,用旧⑧模仿,抄袭⑨逐渐变化,略微变动

abänderbar, abänderlich ➜ Adj. 可改变的,可修改的

abändern ➜ V.t. (略微)改动,修改

Abänderung ➜ f. --en→abändern

abarbeiten ➜ I V.t. ①做工偿还②做完 II refl. 劳累不堪地工作(或干活),工作到筋疲力尽

Abart ➜ f.-,-en【生】变种,亚种

abarten ➜ V.i. (s.)【渐旧】蜕变,变异

abartig ➜ Adj. ①变态的,反常的②同性恋的

Abbau ➜ m. -(e)s,-e/-ten I (无复数>①拆除,拆卸②撤销③(逐渐)消除④降低(工资,价格等)⑤裁减,减少,缩小⑥【化,生】分解,崩解⑦【矿】开采,回采 II〈复数:-e>【矿】掌子面,工作面 III〈复数:-ten〉【地区】偏远的农庄

前言 & 使用说明.txt (10.6 KB)
德汉小词典 - Gemini.txt (2.3 MB)

这个原书(德语部分)是否有官方源的数据?如果拿来替换德语部分或可减少OCR导致的错误,不知是否可行?

@last_idol 说存在官方德文文本,我简单搜了搜,双解版的1993年德文底本只是一个自动OCR过的pdf文件,里面的识别错误比我贴的OCR样本多多了。或许有其他版本的德文准确文字,但如果底本不同,就很难处理。朗氏词典的正文组成还非常复杂,即使能把德语原文拿到,这些非结构化文本如何实现准确的中文提取和插入也是很有挑战性的问题,难度可能不低于直接校对修正双解版。

这个感觉之前的切图工具可以直接用,可以先整个切图对照版,等搞完拉鲁斯我也可以帮忙做这个。

1 个赞

这个词典的新版是双色印刷的,如果能拿到 Linzertorte 自扫的高清图像,做一个切图版mdx是很实用也快捷的选择。

有官方文本,是在一个 ISO 光盘里面有个 CHM 文件,和双解版本 100% 一致。

1 个赞

不愧是idol啊,给我指点一条明路去哪里获取这个chm文件?

我不懂德语,等别人发吧,我以为你们都有了。

我想我可能找到了,原来早就藏在我的硬盘里,待确认。资料太多,都来不及一一翻检。

CD2 (Langenscheidt Bücher):

Langenscheidts Fachwörterbuch Telekommunikation Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Mikroelektronik Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Medizin Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Technik Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Technik Italienisch-Deutsch-Italienisch
Langenscheidts Fachwörterbuch Technik kompakt Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Wirtschaft kompakt Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Wirtschaft, Handel, Finanzen Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Chemie Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Elektronik Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Technik Französisch-Deutsch-Französisch
Langenscheidts Fachwörterbuch Umwelttechnik Englisch-Deutsch-Englisch
Langenscheidts Fachwörterbuch Biologie Deutsch-Englisch-Deutsch V2
Langenscheidts Fachwörterbuch Biotechnologie Deutsch-Englisch-Deutsch V2
Langenscheidts Fachwörterbuch Ökologie Deutsch-Englisch-Deutsch V2
Langenscheidts Fachwörterbuch Informationstechnik Deutsch-Englisch-Deutsch V2
Langenscheidts Fachwörterbuch Maschinenbau Deutsch-Englisch-Deutsch V2
Langenscheidts Fachwörterbuch Technik Deutsch-Spanisch-Deutsch V2

Langenscheidts Eurowörterbuch Spanisch-Deutsch-Spanisch
Langenscheidts Eurowörterbuch Italienisch-Deutsch-Italienisch
Langenscheidts Eurowörterbuch Französisch-Deutsch- Franzosisch
Langenscheidts Eurowörterbuch Englisch-Deutsch-Englisch

Langenscheidts Bürowörterbuch Englisch-Deutsch-Englisch

Langenscheidts Taschenwörterbuch v2.0 Englisch-Deutsch-Englisch
Langenscheidts Taschenwörterbuch v2 Deutsch-Spanisch-Deutsch
Langenscheidts Taschenwörterbuch Deutsch-Russisch-Deutsch V2

Langenscheidts Handwörterbuch Italienisch-Deutsch-Italienisch
Langenscheidts Handwörterbuch Französisch-Deutsch-Französisch
Langenscheidts Handwörterbuch Englisch-Deutsch-Englisch v2

Langenscheidts Deutsch als Fremdsprache

Langenscheidts e-Fachwörterbuch 4 Technik und angewandte Wissenschaften Deutsch-Englisch-Deutsch v.3
Langenscheidts e-Handwörterbuch 4 mit und ohne Sprachausgabe Deutsch-Englisch-Deutsch V3
Langenscheidts e-Taschenwörterbuch 4 mit und ohne Sprachausgabe Deutsch-Französisch-Deutsch V3
Langenscheidts e-Taschenwörterbuch 4 Deutsch-Italienisch-Deutsch V3

1 个赞

年代太久,我都记不清楚怎么使用这套 Duden PC-Bibliothek 软件了,此前肯定可运行我也用过,先把相关的词典部分打包贴在这里。

Langenscheidt Deutsch als Fremdsprache_V2.12.zip

更新

词典已经打开了,因为是中文系统,稍微有点乱码问题,但从内容看,应该是朗氏德汉双解的德文底本。

1 个赞

Hi.

The dictionary you uploaded has already been converted and is available for download from our cloud, probably in a significantly newer version (PC-Bibliothek is dated somewhere around 2000), so I suggest you, to not deal with re-converting of already available dictionaries.

From the list above, the following have not been converted:

Langenscheidt Fachwörterbuch Mikroelektronik Englisch-Deutsch, Langenscheidt Fachwörterbuch Technik Italienisch-Deutsch-Italienisch, Langenscheidt Fachwörterbuch Technik kompakt Englisch-Deutsch-Englisch, Langenscheidt Fachwörterbuch Wirtschaft kompakt Englisch-Deutsch-Englisch, Langenscheidt Fachwörterbuch Chemie Englisch-Deutsch-Englisch, Langenscheidt Fachwörterbuch Elektronik Englisch-Deutsch-Englisch, Langenscheidt Fachwörterbuch Technik Französisch-Deutsch-Französisch, Langenscheidt Fachwörterbuch Umwelttechnik Englisch-Deutsch-Englisch, Langenscheidt Fachwörterbuch Biologie Deutsch-Englisch-Deutsch, Langenscheidt Fachwörterbuch Biotechnologie Deutsch-Englisch-Deutsch, Langenscheidt Fachwörterbuch Ökologie Deutsch-Englisch-Deutsch, Langenscheidt Fachwörterbuch Maschinenbau Deutsch-Englisch-Deutsch, Langenscheidt Fachwörterbuch Technik Deutsch-Spanisch-Deutsch, Langenscheidt Eurowörterbuch Spanisch-Deutsch-Spanisch, Langenscheidt Eurowörterbuch Italienisch-Deutsch-Italienisch, Langenscheidt Eurowörterbuch Französisch-Deutsch- Französisch, Langenscheidt Eurowörterbuch Englisch-Deutsch-Englisch, Langenscheidts Bürowörterbuch Englisch-Deutsch-Englisch, Langenscheidt Taschenwörterbuch Englisch-Deutsch-Englisch, Langenscheidt Taschenwörterbuch Deutsch-Spanisch-Deutsch, Langenscheidt Handwörterbuch Italienisch-Deutsch-Italienisch, Langenscheidt Handwörterbuch Französisch-Deutsch-Französisch, Langenscheidt e-Fachwörterbuch 4 Technik und angewandte Wissenschaften Deutsch-Englisch-Deutsch, Langenscheidt e-Handwörterbuch 4 mit und ohne Sprachausgabe Deutsch-Englisch-Deutsch, Langenscheidt e-Taschenwörterbuch 4 mit und ohne Sprachausgabe Deutsch-Französisch-Deutsch, Langenscheidt e-Taschenwörterbuch 4 Deutsch-Italienisch-Deutsch.

You can see what’s already available in the HTML file at the bottom of the folder.

1 个赞

Wow, what a treasure trove. However, I need the exact same 1993 edition. I’ll have to double-check that.

1 个赞

初步对比了 https://cloud.freemdict.com/index.php/s/pgKcDcbSDTCzXCs?dir=/GERMAN/Deu-Deu/Langenscheidt 的 Langenscheidt Großwörterbuch Deutsch als Fremdsprache (MDX) 和 “朗氏德汉双解大词典”,它们应该是同一个底本,那就不用从 Duden PC-Bibliothek 扒了。

现在的问题成了如何提取“大黄”的中文翻译并把它准确插入Langenscheidt Großwörterbuch Deutsch als Fremdsprache (MDX)?

Unfortunately, I don’t speak Chinese and have to use an automatic translator.

If I understand correctly, this can be done in the DSL version of the dictionary - open the DSL file in a text editor and manually add the necessary strings, but it will take a very, very long time. Then it is no problem to convert the result to MDX or another format.

But before that - did you see this?:

https://cloud.freemdict.com/index.php/s/o9FsgsMMbELmDfb

1 个赞

Thanks. There’s no shortage of simple German-Chinese dictionaries in China. The reason I value the Langenscheidt German-Chinese Bilingual Dictionary more is that it provides definitions in both German and Chinese, which allows for a more accurate and in-depth understanding of the vocabulary.

Yes, I understood that, and I explained to him how it could be done.