本人外语盲,所以对于外语词典力有不及,本来想剑桥在线词典的分级不错,英汉翻译也有官威,可以抽取出来有空学习学习。谁想被https://forum.freemdict.com/t/topic/18465勾起强迫症,于是这两天把英汉词典和英英词典的数据抓了下来。
本以为剑桥大气,没有反爬,抓取没有难度,谁知抓取时数据莫名其妙地丢失,尤其英英数据庞大,补齐一种又出一种,所幸剑桥有词汇表,所以虽焦头烂额但总算可以交差。
说明:
一、英汉与英英词条数目
英汉共61368条,英英词表虽是94311条,但有7条(pubic bone/urinary tract/camel’s hair/coulomb’s law/earth’s atmosphere/maxwell’s equations/newton’s laws of motion)网站并无数据,实际只有94304条,目前少一条,还不知是啥。(2023年元月20日更新)
二、英汉与英英词条对比
英汉与英英词条悬殊,英汉比英英多出3987条,英英比英汉多出36920条(其中很多是词语的曲折变化),比较文件也上载上来。(2023年元月20日更新)
zh-en.txt (72.9 KB)
en-zh.txt (558.0 KB)
三、数据内的链接问题
数据内的链接情况很复杂:有些需要进一步抓取;有些需要调整,指向本地词条;有些需要补全网址在线使用,如音频图片;而有些完全无用,需要砍掉。
我说自己力有不及,这是主要原因。接力制作的朋友如果认为哪些需要进一步抓取,请给出这一类链接的特征,我好继续搬砖。
四、核心数据下载地址
为便于同好进一步加工,我已对数据做了初步处理,做成了mdx。但又怕因为自己目不识英不小心损坏数据,所以动的很少,包括冗余代码也基本不动。
有坛友不知如何下载原网站的css,这里一并奉上。
英汉:
英英:(2023年元月20日更新)
css:
common.css (72.5 KB)
五、释义和例句中的关键词跳转替换表(2023年元月20日更新)
在线版特色之一是释义和例句中的关键词有跳转,但因为网址和词头在网址用连字符时不一致,所以又把词表抓了一遍,只上传有连字符的替换表。
英汉:
zhtab.txt (693.7 KB)
英英:
entab.txt (1.2 MB)
六、2023年元月20日更新与放弃
原因见32#
能力有限,问题不断,自己又不懂英语,不用英语,纯属手贱,却陷入泥滩,举步维艰,算了,快刀斩麻,挥手再见。走前上传已知问题,以俟高手接盘。
官网词表比最新mdx词头多出:
官方词表多出.txt (4.6 KB)
最新mdx比官网词表多出:
mdx多出.txt (58.7 KB)
七、同义词和语法数据(1月22日更新)
English Thesaurus
Thesaurus articles
Thesaurus synonyms and antonyms
Grammar
Grammar