《朗氏德汉双解大词典》文本数据（OCR）

wynick27 · 2025 年11 月 12 日 06:32

对比德文版自动修复了大部分词头问题，但是还有500多个词头匹配不上

然后切图程序改下参数就可以用了

这是目前匹配错误的词头列表，已经排除了一些明显不是词头的：
extra_cn.txt (18.3 KB)
extra_de.txt (13.5 KB)

mixivivo · 2025 年11 月 13 日 02:44

谢谢，辛苦了。不过对朗氏德汉双解的文字比对校订，我有点畏惧，觉得工作量很大，搞不动。

wynick27 · 2025 年11 月 13 日 02:52

感觉等对齐词头后先把忽略德语对比中文，然后直接用工具插入德语原版里比较容易。但是德语感觉应该抽取固定格式，改成语义标签和css，这部分反而比较麻烦。

mixivivo · 2025 年11 月 13 日 03:15

中文译本多事，翻译插入了很多可能不需要翻译的缩略语，像[口]，K-（复合），Vi（不及物），它们实际对阅读的流畅度来说是造成干扰的，支离破碎，令人不忍卒读。这种破碎性也干扰了OCR的正确率和后续程序的有效处理。

wynick27 · 2026 年2 月 14 日 10:17

补充paddleocr识别版本：

lishiyu0088 · 2026 年5 月 6 日 22:47

楼主好，我根据你的txt文本生成了mdx和mdd文件，现在排版还有些问题。不知道你有没有经验。现在虽然还有些错误，感觉基本可以用了。

zaojz · 2026 年5 月 7 日 13:56

把mdx和mdd发出来呗

lishiyu0088 · 2026 年5 月 7 日 14:06

（帖子已被作者删除）

lishiyu0088 · 2026 年5 月 7 日 14:07

现在问题还比较多，文本没有校对过，只是初步的一个

《朗氏德汉双解大词典》 文本数据（OCR）