求助：網路辭典的爬取工具

Yuki · 2022 年7 月 1 日 09:21

求助：網路辭典的爬取工具

我搜索了一下，發現有很多人推薦 HTTrack 爬取網站

不過或許是技術太老，最近幾個網站資源都爬不全

求推薦比 HTTrack 更好用的爬取工具

shaoshi · 2022 年7 月 1 日 09:37

先声明，我不内行。

你可以参考以下帖子所介绍的软件：

httrack wget curl scrape & fetch

Mirroring websites using wget, httrack, curl

假如还是不行，可能得自己学Python写程式，本坛的大佬都用Python。当然，Python也不是万能的，有的网站保护得固若金汤。

mdict6 · 2022 年7 月 1 日 10:12

学廖雪峰的python教程会不会超过了

Yuki · 2022 年7 月 2 日 16:02

他介紹了3個工具： HTTrack、 Wget 、 curl
我試過了 HTTrack 跟 Wget 都失敗，看來最近辭典網站保護太好
不懂 Python 編程，就沒辦法嘗試 Scrapy + bs4 ，還是感謝回覆。

Yuki · 2024 年6 月 9 日 14:22

看到了新的爬取工具：
Chrome Web Store Instant Data Scraper

搭配另一套解析工具：
Octoparse

試了一下的確很好用，使用方法也很簡單
而且資料直接整理好，網頁爬取後很快就能製作
整體比我原本用的方法快了 3 至 5 倍
有需要爬取新辭典可以試試看這2套工具的搭配