【求助】抓古诗文网，地址索引已有，求python代码

阿弥陀佛 · 2021 年6 月 11 日 08:24

地址索引已有
gushiwen全部地址.rar (2.2 MB)
用代码GSW.py (1.4 KB) （last_idol所写）抓取，抓几百个就中断了，不知何故。

隐藏内容要抓取，最好能实现网页效果如图：

请诸高手帮忙看看
@last_idol @hua @sxingbai

求能顺利抓取的python代码
古诗文网

sxingbai · 2021 年6 月 11 日 11:06

佛陀是想要全搬？

阿弥陀佛 · 2021 年6 月 11 日 11:15

全搬更好。。

Mandolin · 2021 年6 月 11 日 16:13

古诗文网是可以全文检索的，做成MDX便捷性提升不大吧

ad困困 · 2021 年6 月 16 日 02:43

古诗文网是不错，全部都有注释译文赏析等，类似古诗词典都是只有原文其他全无啊
这网站很难抓吗，看来是被难住了

sxingbai · 2021 年6 月 22 日 10:25

为什么上传代码或附件总是出错？

hua · 2021 年6 月 22 日 10:34

什么错？

free · 2021 年6 月 22 日 11:25

Python代码需要搞成压缩文件才可以上传附件，你看我把你网盘中的Python代码压缩之后成功上传论坛附件了：gushiwen.py.zip (1000 字节) @sxingbai ；上传代码时，代码过长，帖子发不出来，最好上传附件

sxingbai · 2021 年6 月 22 日 12:31

是403错误

hua · 2021 年6 月 22 日 12:44

网页上显示什么？

sxingbai · 2021 年6 月 22 日 13:07

就一个403 error ，下面一个确认

sxingbai · 2021 年6 月 22 日 13:17

链接：https://pan.baidu.com/s/1qpvNBPUnZt-yGaRzkRzyWA
提取码：abcd
网页中如果有js隐藏的内容，抓取时都放在这个网页之后了
抓取时间肯定比较长，如果到最后程序没有自动停止，但不再抓取新内容了，就可以强制停了

阿弥陀佛 · 2021 年6 月 22 日 13:23

    allset=allset|errset
NameError: name 'errset' is not defined

进程已结束，退出代码为 1

這樣……。

sxingbai · 2021 年6 月 22 日 14:00

这个错误，不会呀
不行就先把

 if os.path.exists (errfile):
        with open(errfile,'r',encoding='utf-8') as f:
            errlists=f.read().split('\n')
            errset=set(errlists)
    allset=allset|errset

删了再试，本来这一部分就没想太好

sxingbai · 2021 年6 月 22 日 14:05

嗯，学习了，多谢

阿弥陀佛 · 2021 年6 月 22 日 14:45

刪了。出現很多這樣的：

<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>

阿弥陀佛 · 2021 年6 月 22 日 14:59

已經掛上在跑了。

sxingbai · 2021 年6 月 22 日 21:08

好，没多大影响，当初调试时的print函数忘删了

阿弥陀佛 · 2021 年6 月 23 日 07:09

跑了七八个小时，结束了。这是得出的数据。JS隐藏的部分。还是没有出来。您看看
gushiwen.rar (24.8 MB)

sxingbai · 2021 年6 月 23 日 12:19

因为是全站，我又没额外做标记，所以清洗任务很大，得下功夫找。抓取逻辑我上面也说了，先是不完整的页面，然后在这个页面下补上前面被隐藏的内容，好像这些数据前有“未登录”的字样。