请教:开发用于清洗网页的脚本的工作流程

先说我原有的流程:

  1. 在文本编辑器中,打开一个下载到本地的网页html代码,同时在Chrome中载入这个网页

  2. 在文本编辑器中,创建并编写一个JS处理脚本

  3. 在文本编辑器中,切换回网页html代码窗口,运行刚刚编写的脚本,保存网页html,到Chrome中重载网页查看结果

  4. 根据Chrome中看到的结果,回到文本编辑器中,在脚本窗口修改脚本,在网页html窗口先Undo回到网页初始状态再运行新脚本,保存网页html,再到Chrome中重载网页查看结果

  5. 重复第4步,直至脚本完善

说来惭愧,本人一直土法炼钢用正则在解析html,打算把python的bs解析库学一下取代低效率的正则。如果用python的话,上述的操作流程就不适用了,请教下各位先进怎么个操作流程比较高效,谢谢!

编码工具都不是问题。请教的主要是一个比较顺手的清洗网页的操作流程,不涉及抓取。谢谢!

抓取似乎没有必要自己写代码吧,Offline Explorer一般也不需要动什么脑子。主要是清洗网页,费脑子,看看有没有比较简化的流程。

你要清洗网页上的什么?

网页千变万化,就是把其中某些有用的信息提取出来,边边角角删掉。

提取关键内容啊。其它的直接扔了。

1 个赞

如果有像挡广告 ublock origin 里的选取工具就好了。

应该就是干的同一个活。