Beautiful Soup解析器选择问题

https://www.wordreference.com/EnglishUsage/sick

用BS提取上面这个网页的div class='entry’部分,如果解析器是html.parser,会出错(提取不全),换成“容错性最好”的html5lib之后,正常了。

推荐lxml,速度快,容错高。html.parser很难用,强烈不推荐,尤其是有错误的网页。

Requests-HTML可以用来抓JavaScript渲染的网页,而且它实现了BS的部分功能。

我们如果能不借助其它数据(常来自App),优雅完整地抓某网站,那这网站一定也能被wget -m抓完。

文件夹内有几万个文件,用os.listdir()根本读不了,用os.scandir()才行。

这样的存储效率其实有点低,不过目前爬取的数据确实都是这样,直接存一堆HTML会有十几GB,压缩之后甚至只有几百MB。我现在正在开发专门的存储机制来解决这个问题。

pathlib应该也可以,而且用起来还蛮方便的。