通用爬虫工具

surfactant · 2022 年12 月 27 日 14:50

设想了一个通用的爬虫工具：

GUI 界面
可通过 GUI 定制爬取策略（包括爬取路径和网页清洗方式两部分）
爬取的结果以数据库形式保存
可方便地保存和更新很多的爬取策略
无需直接写代码

网页爬取是一种高度模式化的操作，似乎一个专用软件完全可以胜任。我熟悉的只有 Offline Explorer可惜历史久远显得非常落后，对其它先进的工具则孤陋寡闻不太了解。专业的坛友不妨分享一二，相信也是很多坛友感兴趣的。

surfactant · 2022 年12 月 27 日 15:08

看上去不错，谈谈用过的感受？

surfactant · 2022 年12 月 27 日 15:22

github上很多东西实际上看的到吃不到，研究好半天往往发现不是那么回事或者bug能吓死人，所以不敢轻易入坑，除非是一些声誉卓著的项目。

西北风 · 2022 年12 月 27 日 16:12

你先学会怎么写 if 吧，等你哪天自己写了一个爬虫，有些事情自然就明白了。打这么多字，不如自己搜索一下也行，发帖不能解决白日梦的问题。

西北风 · 2022 年12 月 27 日 16:15

if 也不会写才是根源

匿名1370 · 2022 年12 月 28 日 01:30

要實現這一點，開發工作量至少變為原來的幾倍、幾十倍、甚至幾百倍。

天天做夢發帖，不如學點python ABC。

WalkingDictionary · 2022 年12 月 28 日 01:45

后羿采集器。除了免费版受到一些限制外，特别适合我这种不懂代码的小白用户。

zambast · 2022 年12 月 28 日 02:17

其实比较麻烦的是越来越容易部署的反爬机制。以前是只有大型网站有厉害的反爬机制，一般的小站都是几行代码随便爬，但是现在有了Cloudflare之类的云服务商，一个个人站点也可以花很少的钱部署一个，虽然Cloudflare的主要目的是为了防DDoS，但是客观上也可以反爬，而且不好对付。这使得通用的爬虫软件的适用性也大幅降低。现在反倒是大型网站中的那些反爬规则宽松的容易爬了。

surfactant · 2022 年12 月 28 日 04:35

@WalkingDictionary 粗看了下官网，感觉有些凌乱，而且对国产小软件信心不足。论坛里用 Offline Explorer 的似乎不多，实际上那是老牌的全站备份器，只需简单的配置绝大多数爬取的活它都能干的还不错，有些配置功能如果手写脚本还不太容易。只是对有些特殊的网页处理需求无能为力。

@zambast 我主要爬些软件手册和一些公共资源对反扒到不是很在意，不过脚本里常见的一些反反爬的机制也不复杂而且就那么几种，通过GUI配置应该不难。

“一般的小站都是几行代码随便爬”-----正是你所说的这样，一个通用的带GUI的爬虫工具可以集成爬取、清洗、数据库创建多个环节，这些环节分开看都不难，权宜之计多数人都会用独立的脚本去做，实际上整体来看效率是很低的。