大英百科全书202412(网络版) 主站数据 www.britannica.com/

下载网址已经不在源数据里面了.
不过你的这三个例子符合规则 (数字区域100K,200K,300K)

数据丢失了URL,以至于无法区分 scholars/students/kids

1 个赞

话说还有大英百科第一版的电子数据,但是要订阅。

First Edition | Britannica

1 个赞
https://kids.britannica.com/scholars/article/Budd-Schulberg/476773

这条不符合,300K+,但不是Kids而是Scholars。

https://kids.britannica.com/scholars/article/Bud-Fowler/637523
https://kids.britannica.com/students/article/Bud-Fowler/634794

这两条都是300K+,但一个是Scholars一个是Students。

我发现网站即使输入错误的地址,如

https://kids.britannica.com/kids/article/Budd-Schulberg/476773

网站会自动redirect去到正确的地址——

https://kids.britannica.com/scholars/article/Budd-Schulberg/476773

可以利用这点爬取正确的地址。

1 个赞

Oxford Dictionary of National Biography词头都没处理,查询起来费劲

谢谢,看来没有那么简单。

不过用redirect,还得去撞网站无数次,还不如重新下载一次数据,保留地址。

我准备有空添加first name+last name,还有分开 (lastname,firstname)还有单独 last name, 单独fistname的

目前先折腾Kids 和 ONDB的发音/视频。

2 个赞

音频 地址 还没有 搞定吗

在搞OED, 音频没啥动力。你的academic里面的URL有没有

给你的 就是 元数据啊

先把 这个 地址 能出来吧 我要用 等我学会了 就行了

ONDB的发音/视频

数据里面是文件,但是如何区分scholar, kids, compton etc

这个很小众,先弄OED

1 个赞

简单 kids 里面 重新 抓一边数据就行 自动分为3部分

你是不是把三个混在一起了。等于丢失了关键信息。

biography有啥学习的,就是普通语句。

这个是个 小玩意 下面给你一个 大的

https://baike.baidu.com/view/1

这又不是啥常用的。

那 先把 音频的地址 发给我呗 我研究下

没有发现规则,没批量处理。已经发给你一个了,你无回复。