下载网址已经不在源数据里面了.
不过你的这三个例子符合规则 (数字区域100K,200K,300K)
数据丢失了URL,以至于无法区分 scholars/students/kids
1 个赞
话说还有大英百科第一版的电子数据,但是要订阅。
1 个赞
https://kids.britannica.com/scholars/article/Budd-Schulberg/476773
这条不符合,300K+,但不是Kids而是Scholars。
https://kids.britannica.com/scholars/article/Bud-Fowler/637523
https://kids.britannica.com/students/article/Bud-Fowler/634794
这两条都是300K+,但一个是Scholars一个是Students。
我发现网站即使输入错误的地址,如
https://kids.britannica.com/kids/article/Budd-Schulberg/476773
网站会自动redirect去到正确的地址——
https://kids.britannica.com/scholars/article/Budd-Schulberg/476773
可以利用这点爬取正确的地址。
1 个赞
Oxford Dictionary of National Biography词头都没处理,查询起来费劲
谢谢,看来没有那么简单。
不过用redirect,还得去撞网站无数次,还不如重新下载一次数据,保留地址。
我准备有空添加first name+last name,还有分开 (lastname,firstname)还有单独 last name, 单独fistname的
目前先折腾Kids 和 ONDB的发音/视频。
2 个赞
音频 地址 还没有 搞定吗
在搞OED, 音频没啥动力。你的academic里面的URL有没有
给你的 就是 元数据啊
先把 这个 地址 能出来吧 我要用 等我学会了 就行了
ONDB的发音/视频
数据里面是文件,但是如何区分scholar, kids, compton etc
这个很小众,先弄OED
1 个赞
简单 kids 里面 重新 抓一边数据就行 自动分为3部分
你是不是把三个混在一起了。等于丢失了关键信息。
biography有啥学习的,就是普通语句。
这个是个 小玩意 下面给你一个 大的
这又不是啥常用的。
那 先把 音频的地址 发给我呗 我研究下
没有发现规则,没批量处理。已经发给你一个了,你无回复。