【好奇提问】古音小镜的资源是否能够爬取?

好奇地问个问题:古音小镜的资源,例如里面的某个词典的图片和对应索引,是否能够爬取呢?可以的话,那难易程度如何呢? :face_with_monocle:

谢谢解疑。里面错误较多的应该是文字版资料,我比较感兴趣里面的图片词典,有些是目前 Mdict 词典所未制作的,像尔雅诂林、扬雄方言校释汇证,主要是图像质量都还不错呢。

1 个赞

稍微分析了下(我没学过爬虫哈哈,这方面知识极其有限),图像是最容易抓取的。主要还是索引,网站是js动态数据,发送一个post请求获取单个数据也不难。但我好奇是如何遍历整个词典的索引获取全部的索引数据的~

我也想知道如何遍历!

1.从别的地方找某书的词头索引,再用该书的词头抓。

2.用另一本较大的词典的词头抓,再对照纸版或其他图像版补充抓漏的词头。

这里有一个成功的案例:

《扬雄方言校释汇证》

本坛的佛爷说过:抓取网站的技术是不能公开的,一公开,反扒措施就会跟上。只能私下交流。

发私信问做过的人吧,看人家肯不肯教你。否则只能自己摸索。

2 个赞