这也是一本重要德语词典的中文版
原版是Wahrig Deutsches Worterbuch,有MDX:
我同样用gemini和夸克识别了一遍,页码已经验证过没有缺页。
这也是一本重要德语词典的中文版
原版是Wahrig Deutsches Worterbuch,有MDX:
我同样用gemini和夸克识别了一遍,页码已经验证过没有缺页。
把《Encarta 英汉双解大词典》也搞一下,不过这词典的pdf部分页面好像编码有问题。
这本我看anna标注pdf有问题,似乎之前也出过电子版,不过现在好像下架了。
好像没出过电子版,论坛上某些人说的当当的电子版,应该是图片在线浏览,而不是文本化的版本。
不过这本词典跟它处在相似生态位的竞品不少,可有可无。英文词典如今太多了,不是职业的词典研究者,从实用的角度来说,根本用不着这么些。像我主要用的词典就ODE、牛高4、英汉大词典等,朗文、剑桥、科林斯、麦克米伦、webster、chambers都是备而实际不查。
ODE、英汉大词典经常就我查词的情况其实也是无用的,比如我刚查了一个单词chungus,没有词典收录,还是顺手Google最方便。
anna‘s 上的《Encarta 英汉双解大词典》从p257开始至p327有错误,无法正常读取或者软件提取。数据应该在,好像100多兆大小,但编码存在毛病。
现在有不少工具可以检查修正pdf,不过我还没有具体研究此一个案。
我下载后把pdf分割了,没发现报错啊,257页后面也正常,明天可以试试看。 我现在识别完了《新世纪日汉双解大词典》,但发现gemini在这本词典上幻觉出现概率特别高,20%以上的页输出的和原文完全不同,然后一直输出无关内容就超过最大输出限制了,不知道为什么会这样,我把pdf改成每10页输出还是有问题。
《新世纪日汉双解大词典》识别的幻觉率高,应该是因为图片不清晰,辨识难度大。有些地方看不清,比如注音符号,只能瞎猜,瞎猜的坏头一起,那就是连环成片错误。
我原来的文件应该是从WeLib下载的,它的页面存在错误,重新从anna’s下载了一遍,现在正常了。
anna显示pdf也是有问题的,不知道在哪里,我现在已经在跑ocr了,但每页3栏文字很多,分了150个part,估计还要很久。
那我就不动手,等你的识别结果了。或者我从1000页开始,但不知道你是怎么分页的,以及提示词是什么。
我是每15页分为一个部分的,提示词用的这个:
这是一本英汉词典中的内容,希望识别全部文本,每个词条识别为一行,也就是原书单词每个词条因为版面限制换行的地方输出时不换行,词条开始时用>进行标记,如果有反义词同义词拼写检查用法等专栏需要换行,且前后两行使用—作为分割线输出。输出时每个单词输出完后空一行。此外还要注意以下几点:每一页有页眉,表示起止单词,中间是表示页码的阿拉伯数字,把页码作为分页符放入尖括号中,忽略起止单词。词典分为三栏,识别阅读顺序为从左到右,左栏开头不是词头而是接着上一页的情况要原样输出,不能丢掉这部分文字。词条上一栏没有结束的情况下和下一栏合并输出。此外原文用粗体标出的地方,如词头,其他拼法,屈折变化,短语等,需要用markdown格式**输出。要尽可能多输出内容,识别pdf全部15页内容,不可没输出完就中途停止,也不可输出原文没有的内容。
那我从P1501 pool 1 词条开始识别,15页一个批次,共50个batch。
补充paddleocr识别的版本:
wahrig_paddleocr.7z (13.3 MB)