地址索引已有
gushiwen全部地址.rar (2.2 MB)
用代码GSW.py (1.4 KB) (last_idol所写)抓取,抓几百个就中断了,不知何故。
隐藏内容要抓取,最好能实现网页效果如图:
请诸高手帮忙看看
@last_idol @hua @sxingbai
求能顺利抓取的python代码
古诗文网
地址索引已有
gushiwen全部地址.rar (2.2 MB)
用代码GSW.py (1.4 KB) (last_idol所写)抓取,抓几百个就中断了,不知何故。
隐藏内容要抓取,最好能实现网页效果如图:
请诸高手帮忙看看
@last_idol @hua @sxingbai
求能顺利抓取的python代码
古诗文网
佛陀是想要全搬?
全搬更好。。
古诗文网是可以全文检索的,做成MDX便捷性提升不大吧
古诗文网是不错,全部都有注释译文赏析等,类似古诗词典都是只有原文其他全无啊
这网站很难抓吗,看来是被难住了
为什么上传代码或附件总是出错?
什么错?
Python代码需要搞成压缩文件才可以上传附件,你看我把你网盘中的Python代码压缩之后成功上传论坛附件了:gushiwen.py.zip (1000 字节) @sxingbai ;上传代码时,代码过长,帖子发不出来,最好上传附件
是403错误
网页上显示什么?
就一个403 error ,下面一个确认
链接:https://pan.baidu.com/s/1qpvNBPUnZt-yGaRzkRzyWA
提取码:abcd
网页中如果有js隐藏的内容,抓取时都放在这个网页之后了
抓取时间肯定比较长,如果到最后程序没有自动停止,但不再抓取新内容了,就可以强制停了
allset=allset|errset
NameError: name 'errset' is not defined
进程已结束,退出代码为 1
這樣……。
这个错误,不会呀
不行就先把
if os.path.exists (errfile):
with open(errfile,'r',encoding='utf-8') as f:
errlists=f.read().split('\n')
errset=set(errlists)
allset=allset|errset
删了再试,本来这一部分就没想太好
嗯,学习了,多谢
刪了。出現很多這樣的:
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
已經掛上在跑了。
好,没多大影响,当初调试时的print函数忘删了
跑了七八个小时,结束了。这是得出的数据。JS隐藏的部分。还是没有出来 。您看看
gushiwen.rar (24.8 MB)