可以先爬下来,之后慢慢做mdx,我还挺喜欢这本词典的
黑人问号脸.gif
爬取网站数据一般目的是为了做数据挖掘,比如做商业调查的爬取某电商的数据。这种字典花不多的钱就可以订阅,也不是什么高精尖技术随时可能被封锁,除非有人写论文专门研究它,否则爬下来也不过是填满硬盘而已。
为啥说lexico快下线了?
大家可以可快去买 付费版的 dictionary.com app,我猜马上要涨价了,投资不亏
释义貌似没区别
例句,同义词,词源都有删减
小草和FF都是oxford dictionaries里抓取的
他自己都说了是lexico了
这不太明白,海上1212版本没用过
你查查light吧,oxford dictionaries里词组有同义词,而lexico没有。
我猜测早期网站还没有反义词吧,可以试试查一些很简单的词,都是没有的
有这么大的区别?还以为就是Living和Lexico改个名呢!
可惜,海上的Lexico中文版不再分享了,只能通过Anki牌组一睹真容了:
【重磅】ODE释义单词+牛津TOPIC+专八+GRE (LEXICO)
(出处: 掌上百科 - PDAWIKI)
你是不是漏了啥,我怎么看不懂了呢……漏了背景?
怎么拿到全的词表?
通过牛津网站提供的sitemap: https://premium.oxforddictionaries.com/sitemap.xml
顺藤摸瓜找到 https://premium.oxforddictionaries.com/sitemap/english/sitemap1.xml …
这里从sitemap1.xml到sitemap10.xml一共有10个文件,把它们全部下载下来,经过简单处理,你就获得了所有单词的地址 oxford-definition-english-url.zip (1.1 MB),我猜这就是完整的词表吧
盲猜单词词表.txt 11兆
你小看了txt的压缩率,再猜猜
少的不是释义,是例句吧!而且也只是折叠起来而已。
打开之后发现lexico比ODE例句还多很多