爬虫+数据库

互联网上允许合理爬取的材料浩如烟海,以合理的形式组织起来可大大提高资源的利用效率。以前用软件爬过一些网页,得到一堆html,后续的清洗加工繁不胜烦,最近想到应该在爬的时候直接放到数据库里,后续的处理会方便很多,象制作词典这种材料可能爬完了那mdx也就基本完工了,修修剪剪在数据库里也是相当方便。(主要的启发来自 @douglarek 兄曾经说应在爬取的同时就处理好。)只是对爬虫才刚勉强入门,对数据库语言更是一窍不通,比如象从 mdx 文件中访问mdd中的图片音频数据的操作更是从没想明白过。如果坛子里有这样的熟手高手,不妨露一手给我这样的新手学习学习。谢谢!

参考:<>https://blog.csdn.net/qq_57249957/article/details/121965150<>

1 Like

我想了很久,你这个做法应该是效率最高的,这也是我打算学写爬虫的原因。至少我自己反悔不是大问题,多半也是处理完了就把一堆html删掉了事,大不了再爬一次,处理的人力远远超过爬取。

我倒是觉得扒数据和洗数据分两次进行,实际上代码量是完全一样的。保留原始数据的好处多多,用完后打个压缩包封存就是,也占不了多少空间。

一般来说是你说的这个道理。实际操作上,我体会下来,不如一次搞定,只要不是那种很难爬的东西,存在自家硬盘上和存在他家服务器上差别有但不是那么大。

碰到稀缺资源那还是先抓下来再说

还是实践太少,想的太容易

1 Like