关于抓取WordReference English Collocations

https://www.wordreference.com/EnglishCollocations/

目的有两个:1、得到一本搭配词典;2、验证一些想法。

1 Like

不难的。

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=40974&highlight=WordReference

https://pan.baidu.com/s/1aWgBttpiNvgb-LZe7uAJjQ

ph65

其它版本,数据估计都来自Lynvia(Arlin),制作者不同。

WordReferenceCollocations20200405.mdx (2.3 MB)

掌上百科已经有了,制作得很不错。这本搭配词典,很多搭配都是句型,感觉比牛津搭配还要好一些。牛津搭配很少句型,并且没有收录get,what这样的单词。

Beautiful Soup查找兄弟节点有点麻烦的:

In real documents, the .next_sibling or .previous_sibling of a tag will usually be a string containing whitespace.
instead of next_sibling use find_next_sibling(). which will return the next html tag ignoring whitespace and other non html syntax elements.

思路很简单,从A开始,抓一个词,用BS得到下一个词及其网址,再抓,循环,直到没有下一个为止。

会被要求做非机器人验证。

1 Like

好像是根据抓的多少来的?不是快慢?

本来已经做好一版了,发现一点瑕疵,推倒重来:

从头再来是因为一个网页上可能存在多个词条。另,个别词条原始数据有问题(标签错误),上面Impact分享的那版未作修正。

dict.7z (2.1 MB)

2 Likes

产生重复词条的原因:抓\consulting网页,会写一次consult词条,抓\consult网页,又写一次。