求助:網路辭典的爬取工具
我搜索了一下,發現有很多人推薦 HTTrack 爬取網站
不過或許是技術太老,最近幾個網站資源都爬不全
求推薦比 HTTrack 更好用的爬取工具
先声明,我不内行。
你可以参考以下帖子所介绍的软件:
httrack wget curl scrape & fetch
Mirroring websites using wget, httrack, curl
假如还是不行,可能得自己学Python写程式,本坛的大佬都用Python。当然,Python也不是万能的,有的网站保护得固若金汤。
学廖雪峰的python教程会不会超过了
他介紹了3個工具: HTTrack、 Wget 、 curl
我試過了 HTTrack 跟 Wget 都失敗,看來最近辭典網站保護太好
不懂 Python 編程,就沒辦法嘗試 Scrapy + bs4 ,還是感謝回覆。
看到了新的爬取工具:
Chrome Web Store Instant Data Scraper
搭配另一套解析工具:
Octoparse
試了一下的確很好用,使用方法也很簡單
而且資料直接整理好,網頁爬取後很快就能製作
整體比我原本用的方法快了 3 至 5 倍
有需要爬取新辭典可以試試看這2套工具的搭配
教學可以看這篇:
Youtube 原來抓網頁資料已經變得那麼簡單了?一行程式都不用寫,連小學生都能輕鬆上手喔! - PAPAYA 電腦教室