卫生间装安全扶手

lurker · 2021 年2 月 1 日 15:04

sakula · 2021 年2 月 2 日 02:48

问一下楼主，你抓取朗文英和数据是用的什么软件。是python吗？如果是，可否开个抓去数据的教程贴？

lurker · 2021 年2 月 2 日 03:57

https://requests.readthedocs.io/en/master/

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

朗文英和词典，我很早以前用wget离线了几万个网页：


wget -m -e robots=off --accept-regex="^https://www\.ldoceonline\.com/(browse|dictionary)/english-japanese/.*" https://www.ldoceonline.com/browse/english-japanese/

然后用 os.scandir() 或 os.walk() 读取，参考：

处理网页数据时，记得把广告给 decompose 掉，把超链接、图片、发音替换成mdx兼容形式。可能会用到正则替换，可能会用到 urllib.parse.urljoin()。