剑桥英语词典2023在线数据(1月22日更新)

本人外语盲,所以对于外语词典力有不及,本来想剑桥在线词典的分级不错,英汉翻译也有官威,可以抽取出来有空学习学习。谁想被https://forum.freemdict.com/t/topic/18465勾起强迫症,于是这两天把英汉词典和英英词典的数据抓了下来。
本以为剑桥大气,没有反爬,抓取没有难度,谁知抓取时数据莫名其妙地丢失,尤其英英数据庞大,补齐一种又出一种,所幸剑桥有词汇表,所以虽焦头烂额但总算可以交差。
说明:
一、英汉与英英词条数目
英汉共61368条,英英词表虽是94311条,但有7条(pubic bone/urinary tract/camel’s hair/coulomb’s law/earth’s atmosphere/maxwell’s equations/newton’s laws of motion)网站并无数据,实际只有94304条,目前少一条,还不知是啥。(2023年元月20日更新)
二、英汉与英英词条对比
英汉与英英词条悬殊,英汉比英英多出3987条,英英比英汉多出36920条(其中很多是词语的曲折变化),比较文件也上载上来。(2023年元月20日更新)
zh-en.txt (72.9 KB)
en-zh.txt (558.0 KB)
三、数据内的链接问题
数据内的链接情况很复杂:有些需要进一步抓取;有些需要调整,指向本地词条;有些需要补全网址在线使用,如音频图片;而有些完全无用,需要砍掉。
我说自己力有不及,这是主要原因。接力制作的朋友如果认为哪些需要进一步抓取,请给出这一类链接的特征,我好继续搬砖。
四、核心数据下载地址
为便于同好进一步加工,我已对数据做了初步处理,做成了mdx。但又怕因为自己目不识英不小心损坏数据,所以动的很少,包括冗余代码也基本不动。
有坛友不知如何下载原网站的css,这里一并奉上。
英汉:

英英:(2023年元月20日更新)

css:
common.css (72.5 KB)
五、释义和例句中的关键词跳转替换表(2023年元月20日更新)
在线版特色之一是释义和例句中的关键词有跳转,但因为网址和词头在网址用连字符时不一致,所以又把词表抓了一遍,只上传有连字符的替换表。
英汉:
zhtab.txt (693.7 KB)
英英:
entab.txt (1.2 MB)
六、2023年元月20日更新与放弃
原因见32#

能力有限,问题不断,自己又不懂英语,不用英语,纯属手贱,却陷入泥滩,举步维艰,算了,快刀斩麻,挥手再见。走前上传已知问题,以俟高手接盘。

官网词表比最新mdx词头多出:
官方词表多出.txt (4.6 KB)
最新mdx比官网词表多出:
mdx多出.txt (58.7 KB)
七、同义词和语法数据(1月22日更新)
English Thesaurus
Thesaurus articles
Thesaurus synonyms and antonyms
Grammar
Grammar

30 个赞

又是一部大作,感谢

1 个赞

赞赞,干实事的

3 个赞

奇怪为什么英汉比英英少了那么多!

好像没有图片,是吗?

英汉应该没有,英英有吧,我没注意,有就应该抓上了,可能得补全路径

1 个赞

对,英英有图。比如:

4 个赞

一楼上传了词语跳转替换表。

1 个赞

一直潜水 这个太强了 必须顶了 顺便问下大侠 这个txt文件怎么用

1 个赞

S大 剑桥英英同义词辨析内容好像没有抓取,

1 个赞

点击 下面的 see more result,跳转到空白


而在线版是有完整内容的

1 个赞

比较结果也上传一楼

1 个赞

在我上传的mdx中,有“entry://词条”部分,由网页链接转化而来,和真正词条并不总是完全一致(连字符问题),同时又和点击的词语并不总是完全一致(曲折变化问题),所以整理了对照表以供批量替换。

1 个赞

这是因为没有深层采集。链接的情况很复杂:有些需要进一步抓取;有些需要调整链接,指向本地词条;有些需要补全网址在线使用,如音频图片;而有些完全无用,需要砍掉。
我说自己力有不及,这是主要原因。接力制作的朋友如果认为哪些需要进一步抓取,请给出这一类链接的特征,我好继续搬砖。

4 个赞

词头(Native American)在came.mdx里没有收录。官网英英有

1 个赞

我的M1用的这个https://github.com/xiaoyifang/goldendict编译出来的goldendict,没显示到内容,Android用DictTango又可以

有滴呀。数据基本可以保证是全的

1 个赞

我的怎么没有:joy:(我是下载本帖一楼123pan里的成品)

1 个赞

大小写? :rofl:

2 个赞

我把剑桥2023文件夹转去mdict.app资料夹测试看看(?)

测试结果:
确实是 欧路.iOS的锅(在mdict可以显示的);
mdict.iOS 单选词典可以显示词头(native american),但是group查询会无内容(我不李姐);

应该怎么优化呢?:doge: