卫生间装安全扶手

3 Likes

问一下楼主,你抓取朗文英和数据是用的什么软件。是python吗?如果是,可否开个抓去数据的教程贴?

https://requests.readthedocs.io/en/master/

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

朗文英和词典,我很早以前用wget离线了几万个网页:


wget -m -e robots=off --accept-regex="^https://www\.ldoceonline\.com/(browse|dictionary)/english-japanese/.*" https://www.ldoceonline.com/browse/english-japanese/

然后用 os.scandir() 或 os.walk() 读取,参考:

https://docs.python.org/3/library/os.html

处理网页数据时,记得把广告给 decompose 掉,把超链接、图片、发音替换成mdx兼容形式。可能会用到正则替换,可能会用到 urllib.parse.urljoin()。

2 Likes