请教：开发用于清洗网页的脚本的工作流程

surfactant · 2022 年9 月 14 日 06:27

先说我原有的流程：

在文本编辑器中，打开一个下载到本地的网页html代码，同时在Chrome中载入这个网页
在文本编辑器中，创建并编写一个JS处理脚本
在文本编辑器中，切换回网页html代码窗口，运行刚刚编写的脚本，保存网页html，到Chrome中重载网页查看结果
根据Chrome中看到的结果，回到文本编辑器中，在脚本窗口修改脚本，在网页html窗口先Undo回到网页初始状态再运行新脚本，保存网页html，再到Chrome中重载网页查看结果
重复第4步，直至脚本完善

说来惭愧，本人一直土法炼钢用正则在解析html，打算把python的bs解析库学一下取代低效率的正则。如果用python的话，上述的操作流程就不适用了，请教下各位先进怎么个操作流程比较高效，谢谢！

surfactant · 2022 年9 月 14 日 07:34

编码工具都不是问题。请教的主要是一个比较顺手的清洗网页的操作流程，不涉及抓取。谢谢！

surfactant · 2022 年9 月 14 日 07:43

抓取似乎没有必要自己写代码吧，Offline Explorer一般也不需要动什么脑子。主要是清洗网页，费脑子，看看有没有比较简化的流程。

last_idol · 2022 年9 月 14 日 08:31

你要清洗网页上的什么？

surfactant · 2022 年9 月 14 日 08:42

网页千变万化，就是把其中某些有用的信息提取出来，边边角角删掉。

jcz777 · 2022 年9 月 14 日 09:50

提取关键内容啊。其它的直接扔了。

First_Last · 2022 年9 月 16 日 12:27

如果有像挡广告 ublock origin 里的选取工具就好了。

surfactant · 2022 年9 月 16 日 12:51

应该就是干的同一个活。