《瓦里希德汉大词典》 OCR文本数据

wynick27 · 2025 年11 月 25 日 04:44

这也是一本重要德语词典的中文版
原版是Wahrig Deutsches Worterbuch，有MDX：

我同样用gemini和夸克识别了一遍，页码已经验证过没有缺页。

Wahrig Deutsch-Chinesisches Worterbuch_gemini.txt (11.7 MB)

Wahrig Deutsch-Chinesisches Worterbuch_quark.docx (10.4 MB)

mixivivo · 2025 年11 月 25 日 06:05

把《Encarta 英汉双解大词典》也搞一下，不过这词典的pdf部分页面好像编码有问题。

wynick27 · 2025 年11 月 25 日 07:15

这本我看anna标注pdf有问题，似乎之前也出过电子版，不过现在好像下架了。

mixivivo · 2025 年11 月 25 日 07:55

好像没出过电子版，论坛上某些人说的当当的电子版，应该是图片在线浏览，而不是文本化的版本。

不过这本词典跟它处在相似生态位的竞品不少，可有可无。英文词典如今太多了，不是职业的词典研究者，从实用的角度来说，根本用不着这么些。像我主要用的词典就ODE、牛高4、英汉大词典等，朗文、剑桥、科林斯、麦克米伦、webster、chambers都是备而实际不查。

ODE、英汉大词典经常就我查词的情况其实也是无用的，比如我刚查了一个单词chungus，没有词典收录，还是顺手Google最方便。

mixivivo · 2025 年11 月 25 日 08:25

anna‘s 上的《Encarta 英汉双解大词典》从p257开始至p327有错误，无法正常读取或者软件提取。数据应该在，好像100多兆大小，但编码存在毛病。

现在有不少工具可以检查修正pdf，不过我还没有具体研究此一个案。

wynick27 · 2025 年11 月 25 日 09:10

我下载后把pdf分割了，没发现报错啊，257页后面也正常，明天可以试试看。我现在识别完了《新世纪日汉双解大词典》，但发现gemini在这本词典上幻觉出现概率特别高，20%以上的页输出的和原文完全不同，然后一直输出无关内容就超过最大输出限制了，不知道为什么会这样，我把pdf改成每10页输出还是有问题。

mixivivo · 2025 年11 月 25 日 10:19

《新世纪日汉双解大词典》识别的幻觉率高，应该是因为图片不清晰，辨识难度大。有些地方看不清，比如注音符号，只能瞎猜，瞎猜的坏头一起，那就是连环成片错误。

mixivivo · 2025 年11 月 26 日 06:06

我原来的文件应该是从WeLib下载的，它的页面存在错误，重新从anna’s下载了一遍，现在正常了。

wynick27 · 2025 年11 月 26 日 06:17

anna显示pdf也是有问题的，不知道在哪里，我现在已经在跑ocr了，但每页3栏文字很多，分了150个part，估计还要很久。

mixivivo · 2025 年11 月 26 日 06:23

那我就不动手，等你的识别结果了。或者我从1000页开始，但不知道你是怎么分页的，以及提示词是什么。

wynick27 · 2025 年11 月 26 日 06:53

我是每15页分为一个部分的，提示词用的这个：

这是一本英汉词典中的内容，希望识别全部文本，每个词条识别为一行，也就是原书单词每个词条因为版面限制换行的地方输出时不换行，词条开始时用>进行标记，如果有反义词同义词拼写检查用法等专栏需要换行，且前后两行使用—作为分割线输出。输出时每个单词输出完后空一行。此外还要注意以下几点：每一页有页眉，表示起止单词，中间是表示页码的阿拉伯数字，把页码作为分页符放入尖括号中，忽略起止单词。词典分为三栏，识别阅读顺序为从左到右，左栏开头不是词头而是接着上一页的情况要原样输出，不能丢掉这部分文字。词条上一栏没有结束的情况下和下一栏合并输出。此外原文用粗体标出的地方，如词头，其他拼法，屈折变化，短语等，需要用markdown格式**输出。要尽可能多输出内容，识别pdf全部15页内容，不可没输出完就中途停止，也不可输出原文没有的内容。

mixivivo · 2025 年11 月 26 日 07:31

那我从P1501 pool 1 词条开始识别，15页一个批次，共50个batch。

wynick27 · 2026 年2 月 14 日 10:17

补充paddleocr识别的版本：
wahrig_paddleocr.7z (13.3 MB)