【求助】抓古诗文网,地址索引已有,求python代码

地址索引已有
gushiwen全部地址.rar (2.2 MB)
用代码GSW.py (1.4 KB) (last_idol所写)抓取,抓几百个就中断了,不知何故。

隐藏内容要抓取,最好能实现网页效果如图:

请诸高手帮忙看看
@last_idol @hua @sxingbai

求能顺利抓取的python代码
古诗文网

2 个赞

佛陀是想要全搬?

全搬更好。。

古诗文网是可以全文检索的,做成MDX便捷性提升不大吧

古诗文网是不错,全部都有注释译文赏析等,类似古诗词典都是只有原文其他全无啊
这网站很难抓吗,看来是被难住了

为什么上传代码或附件总是出错?

什么错?

Python代码需要搞成压缩文件才可以上传附件,你看我把你网盘中的Python代码压缩之后成功上传论坛附件了:gushiwen.py.zip (1000 字节) @sxingbai ;上传代码时,代码过长,帖子发不出来,最好上传附件

1 个赞

是403错误

1 个赞

网页上显示什么?

1 个赞

就一个403 error ,下面一个确认

链接:https://pan.baidu.com/s/1qpvNBPUnZt-yGaRzkRzyWA
提取码:abcd
网页中如果有js隐藏的内容,抓取时都放在这个网页之后了
抓取时间肯定比较长,如果到最后程序没有自动停止,但不再抓取新内容了,就可以强制停了

    allset=allset|errset
NameError: name 'errset' is not defined

进程已结束,退出代码为 1

這樣……。

这个错误,不会呀
不行就先把

 if os.path.exists (errfile):
        with open(errfile,'r',encoding='utf-8') as f:
            errlists=f.read().split('\n')
            errset=set(errlists)
    allset=allset|errset

删了再试,本来这一部分就没想太好

1 个赞

嗯,学习了,多谢

刪了。出現很多這樣的:

<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>

已經掛上在跑了。

1 个赞

好,没多大影响,当初调试时的print函数忘删了

跑了七八个小时,结束了。这是得出的数据。JS隐藏的部分。还是没有出来 。您看看
gushiwen.rar (24.8 MB)

2 个赞

因为是全站,我又没额外做标记,所以清洗任务很大,得下功夫找。抓取逻辑我上面也说了,先是不完整的页面,然后在这个页面下补上前面被隐藏的内容,好像这些数据前有“未登录”的字样。