通用爬虫工具

设想了一个通用的爬虫工具:

  1. GUI 界面
  2. 可通过 GUI 定制爬取策略(包括爬取路径和网页清洗方式两部分)
  3. 爬取的结果以数据库形式保存
  4. 可方便地保存和更新很多的爬取策略
  5. 无需直接写代码

网页爬取是一种高度模式化的操作,似乎一个专用软件完全可以胜任。我熟悉的只有 Offline Explorer可惜历史久远显得非常落后,对其它先进的工具则孤陋寡闻不太了解。专业的坛友不妨分享一二,相信也是很多坛友感兴趣的。

看上去不错,谈谈用过的感受?

github上很多东西实际上看的到吃不到,研究好半天往往发现不是那么回事或者bug能吓死人,所以不敢轻易入坑,除非是一些声誉卓著的项目。

你先学会怎么写 if 吧,等你哪天自己写了一个爬虫,有些事情自然就明白了。打这么多字,不如自己搜索一下也行,发帖不能解决白日梦的问题。

if 也不会写才是根源

要實現這一點,開發工作量至少變為原來的幾倍、幾十倍、甚至幾百倍。

天天做夢發帖,不如學點python ABC。

后羿采集器。除了免费版受到一些限制外,特别适合我这种不懂代码的小白用户。

其实比较麻烦的是越来越容易部署的反爬机制。以前是只有大型网站有厉害的反爬机制,一般的小站都是几行代码随便爬,但是现在有了Cloudflare之类的云服务商,一个个人站点也可以花很少的钱部署一个,虽然Cloudflare的主要目的是为了防DDoS,但是客观上也可以反爬,而且不好对付。这使得通用的爬虫软件的适用性也大幅降低。现在反倒是大型网站中的那些反爬规则宽松的容易爬了。

@WalkingDictionary 粗看了下官网,感觉有些凌乱,而且对国产小软件信心不足。论坛里用 Offline Explorer 的似乎不多,实际上那是老牌的全站备份器,只需简单的配置绝大多数爬取的活它都能干的还不错,有些配置功能如果手写脚本还不太容易。只是对有些特殊的网页处理需求无能为力。

@zambast 我主要爬些软件手册和一些公共资源对反扒到不是很在意,不过脚本里常见的一些反反爬的机制也不复杂而且就那么几种,通过GUI配置应该不难。

“一般的小站都是几行代码随便爬”-----正是你所说的这样,一个通用的带GUI的爬虫工具可以集成爬取、清洗、数据库创建多个环节,这些环节分开看都不难,权宜之计多数人都会用独立的脚本去做,实际上整体来看效率是很低的。