试手Longman dictionary of English language and culture

复杂词典ocr后一定要校对的,特别是大模型需要幻觉检查,大模型容易不听指令输出原文没有的内容。

这个这个 :scream: :scream:
感觉完不成了
只有求下 @freecomic101 看看什么条件下分享出来

0816.part1.rar (20 MB)
0816.part2.rar (15.9 MB)

1 Like

太牛了,超高清!

我扫描的书至少要这样的标准…
之后才会拿来OCR制成mdx或弄成可搜索的PDF
但是就算是这样,用 ABBYY FineReader 出来还是一堆错误
现在我倒是偏向若是要弄 mdx 的OCR,都改用Gemini

离线的OCR都达不到要求,配不上你的超高清 :grinning_face:

现在Ai的OCR 已经不错了,只要图片够清楚,准确率99.9… 几年前的Google Document就很厉害,面向企业的,现在的Gemini就更厉害了。国产的也在猛追,不过稳定性和审查很成问题。

看得出来,你对这个词典是真爱,电子版、繁体中文纸质扫描超清版…我自愧不如,也不奢求你再分享什么了。

另外,看了你发的图片后,我搜索了半天才发现 商务2011年版 对应的根本不是 英文3rd 2005版 :tired_face: 难怪你要买繁体版!

已更新,见一楼。

已OCR内容尝鲜,一共1558页,已核对每页内容完整性,用了两个ai处理,风格稍有区别。

LDELC3en_OCR_text.zip (5.8 MB)

1 Like

大佬您好!请问从哪能买到繁体英汉双解的Longman Dictionary of English Language and Culture 3rd Edition? 我想买本英汉双解的,但是简体版的版本似乎都没有对应第三版的。

用高清样张图片尝试一步到位提取结构化数据,省去中间环节,准确率更高,更省tokens

我也想知道 :grinning_face_with_smiling_eyes:

看多了,看花了,,这个是 Contemporary 的嘛 :downcast_face_with_sweat:

繁体版最新版好像是 “朗文當代高級辭典 (英英‧英漢雙解) 第四版 / Longman Dictionary of Contemporary English (English-Chinese) 4th Edition”

2014年修订的,不知道是不是这个版本。

* 9789620058431 (Enlarged, hardback / 硬皮精裝大字版, 234 x 156 mm)
* 9789620058417 (Standard, hardback / 硬皮精裝標準版, 195 x 130 mm)
* 9789620058424 (Pocket, flexi plastic cover / 膠面袖珍本, 155 x 103 mm)

9789620015779

x02.part1.rar (20 MB)
x02.part2.rar (4.7 MB)

1 Like

这个词典的关系真是复杂,才发现 商务版的 只有2004年的版本 贴近英文版,2011年版、2012版 已经面目全非了,跟LDELC没什么关系了。具体可见hell、help等词条。

而繁体版最后的是2003版,基于英文2002版 也就是第二版。
英文最后版本为2005版,迄今无英汉版。

2004商务双解 高清 下载链接:

英文2005版 未见高清扫描件。

楼主用的LDELC版本是archive.org的版本(ocr后的版本,Adobe Digital Editions下载的那种版本),该书由于法律问题,普通用户不能正常借阅(不然能抓原图下来)。之前文曲星大词典app(台湾远见科技哈电族)有个在线版《朗文當代大辭典》,英汉版2nd或者3rd的内容,内容有更新过,印象隔壁帖子说过app里面有个词条是更新过的(词条内容是发生在2007年左右),不过不确定是不是3rd,这本在隔壁是有出售过 中文反查版的。LDELC 3rd出过日本代理版,二手价格比原版要便宜(其实也不便宜多少)

1 Like

我是从安娜下载的,清晰度差;

我怎么从archive.org 上搜到的是1992年版本?

看安娜页面给出的文件名,ia=Internet archive,后面是longmandictionar0000unse_f9r3是创建时的文件夹/文件名,可以直接加到链接去Longman dictionary of English language and culture : various : Free Download, Borrow, and Streaming : Internet Archive 就能查看原文件页,不过Internet archive下架了好多书籍,一般搜寻就隐藏掉下架的书籍(3rd就搜不到了)。ia借阅14天是等待借阅制的,轮候到别人借阅时间到了并且点到了借阅14天的按钮了,就有书籍下载选项(加密pdf、加密epub,导入Adobe Digital Editions随便dedrm),不过清晰度是ocr后的版本(文字版pdf,所以会有信息缺失),清晰度奇差,后面疫情后能借阅一个小时,那就随便用GitHub的ad_downloader下载原图(cookie),再后来美国书商联合状告ia,下架了很多书籍,想下载隐藏的书籍除非有高权限账号(hathitrust.org同理)。

1 Like