关于重新抓取VocabularyDOTcom Dictionary

bt4baidu制作的2017版数据略旧,查"sickly"没有blurb。另外有人抓了2020版,但问题很多,几乎不能用。

我的想法:用bt4baidu所作词典的词头抓2020/21版,可能用到linecache。

wordlist.7z (582.6 KB)

test.py.7z (610 Bytes)

wordlist.7z (584.5 KB)

5 Likes

强烈支持,非常期待!

强烈支持强烈支持

1 Like

老版排版漂亮,所以还是用的老版。不过新版有哪些具体问题?

强烈支持大神

同问,新版有什么问题?

赞同。小白期待重抓!
个人感觉2020排版也不错,但细节问题太多,很多按钮点击无效。

requests 有 max_retries 参数的。可以将一直不成功的词条写进一个 error.txt 里面。

那个好像无法在read timeout时,执行retry。

反爬虫O_o

timesleep是等五秒后再抓吗?我也发现 了如果抓太快被封

强烈支持!!但是楼主用bt大17版的词头去抓,应该会遗漏的吧。新版应该会有新增词头吧

最好的办法还是把bt4baidu 抓回来重新做2020版。其他人根本不靠谱

1 Like

这。。进度才60%就被贴上“不靠谱”标签了。我是看了bt4baidu的教程贴,才开始爬网站做词典的,只是没有照搬他的代码。

bt4baidu抓的时候,那网站还没有反爬虫机制。

把某mdx视为神作,把相应制作者视为神人,把词典制作过程神秘化。真的不行。

我很尊重bt4baidu,但不会认为他每句话都是对的,不会认为除了他,这世上就没人能抓某网站了。

1 Like

他2015年做的Vocabulary.com 还有在线自动更新例句的功能,我现在都能看到2020年4,5,6,月份的例句。这何其无敌?

mdx词条相当于弱化的网页,在网页上看到实时更新的内容,何奇之有,何难之有?

那我怎么就从来没在别的mdx中看到有这般功能和效果啊

说明别的制作者没这需求呗,恕我直言,新闻编辑写的句子,比词典编辑写的例句,差太多了,毫无参考价值。