谁愿意帮我爬一遍 WordReference

lurker · 2021 年5 月 26 日 12:17

可能 WR 网站有反爬机制，我第一次爬的时候，requests 返回过50开头的状态码。

hua · 2021 年5 月 26 日 12:22

有可能的，你可以控制下速率。

hua · 2021 年5 月 26 日 13:32

我再跑跑试试。

lurker · 2021 年5 月 26 日 22:52

发现问题了，状态码等于500时，网址后面有多余的字符串，得去掉后再请求。

hua · 2021 年5 月 27 日 02:04

我服务器 IP 应该被 wordreference 封了，现在全是 ERROR 还是要限制速率的。

nlmha · 2021 年5 月 27 日 10:13

我没有 ERROR 但还是漏，在试 N = 1

lurker · 2021 年5 月 27 日 12:18

我这儿爬了一天，目前还正常。我用的移动4G网络，可能 IP 有变动过。

nlmha · 2021 年5 月 27 日 14:06

我是用 Windows 的 Ubuntu，不知道有没有关系

lurker · 2021 年5 月 27 日 14:37

WSL1 肯定不行，WSL2 也许行。可以用 VirtualBox 装个 Ubuntu 虚拟机啊。

nlmha · 2021 年5 月 28 日 08:59

nlmha · 2021 年5 月 28 日 14:22

好的，有没有漏对比一下第二版就知道了

lurker · 2021 年5 月 28 日 15:30

发现用 wget 下载 WR 网页，会被重定向到 Yahoo 网站，这可能就是 WR 的反爬措施。改了代码，禁了重定向，你最后再运行一次吧。

nlmha · 2021 年5 月 28 日 15:39

在跑了。。。

nlmha · 2021 年5 月 29 日 03:43

lurker · 2021 年5 月 29 日 12:38

似乎没问题了，你可以找找看有没有词条缺失。

lurker · 2021 年5 月 29 日 12:57

这个 Python 程序稍作修改，就可以爬很多词典网站，不管是有索引页还是附近词条区，只要从一个或多个网页开始，通过超链接能遍历全站的，都可以。基于 WordReference 的数据，已经有很多 MDX 了，但我感觉它们都缺词条，应该重做。完。

SCeakENs · 2021 年5 月 29 日 16:58

怎么不把发音文件一起爬下来…

lurker · 2021 年5 月 29 日 17:49

在词条会被漏爬的时候爬发音毫无意义。God be with ye!

nlmha · 2021 年5 月 29 日 20:51

粗略看了下，好像挺全的

lurker · 2021 年5 月 30 日 05:26

我也爬了一份 dc.txt，文件行数与你那份是否一致？

dc.7z (24.5 MB)