百度百科1200万完整条目数据txt

百度百科1200万条完整条目数据txt
几年前在某论坛找到的百度百科条目数据, 应该是包含了2020年以前的所有条目,有35GB txt数据,220GB html数据,7TB相册图片数据。
txt我下载到了,其他没下载到,现在分享给大家,有能力的可以做成mdx。

阿里云盘下载地址:
百度百科1200万完整条目数据txt
提取码:
4i3p

3 个赞

欢迎分享资料。

以前我曾把一个百度百科的数据做成Access数据库,发现比四库全书的数据还大,但是充满内置广告的垃圾。我无法把有用的数据和垃圾分开,只好弃之不用。我个人认为:维基百科比较有用。

供参考:

百度百科2011+互动百科2012纯文字版-2020.4阿弥陀佛

百度百科2012纯文字版【阿彌陀佛】修訂2020.3.30

Index of /uploads/137229/度娘 百科2020/
按:5个mdx加起来小于20g。大概还行?理论上数据库越大越好,但是自己的电脑配置要够强才行。数据库大到电脑跑不动,就完全没用了。

Index of /100G_Super_Big_Collection/百科/互动百科/

Index of /100G_Super_Big_Collection/百科/维基百科/

Index of /100G_Super_Big_Collection/百科/邱海波维基更新到20171009/中文维基百科/

不列颠百科全书(国际中文版)

参看:

新手指南:怎样找资料?

1 个赞

百度百科,且不管内容质量如何,只要能上网,随时就查了,而且不断更新,这个那么大,有必要吗?

2 个赞

制作完成后凭mdx/mdd到百度hr领取入职通知书一份

需要借助网络的东西永远靠不住,我们追求的是本地化,自己可控,而不是你一句“随时可查”就否认了许多类似辞典的的存在。再说,百度百科自有它的价值,联合查询时和维基对比也能发现各自的可笑之处。再说同一词条的不同版本对比,本就是求知的过程。

6 个赞

还有一个问题,经过censored的baidupedia权威性如何,是否值得本地化?就像苏联大百科有在democratic国家看来十分荒谬的东西。

请教下,有谁知道百度百科的条目数据是怎么爬取的?是拿什么词头撞的吗?还是有现成的索引?

我外行,这个你应该是专家吧?虚怀若谷。我谷歌到这个:

BaikeKnowledgeSchema

另外有:

python自动规则化抓取百度百科词条数据

Python爬虫实现爬取百度百科词条功能实例

Python抓取百度百科数据
本文整理自慕课网《Python开发简单爬虫》(Python开发简单爬虫_python爬虫入门教程_python爬虫视频教程-慕课网),将会记录爬取百度百科“python”词条相关页面的整个过程。
Python抓取百度百科数据 - VoidKing - SegmentFault 思否

之前的数据,包括上面链接里的,使用都是类似撞库的方式爬取的数据,会缺失一些冷门孤立的词条,如果没有现成索引的话,就只能使用这种方式了。

百度百科的词头应该没有私用区字和图像字?

假如分两轮抓,第一轮先把所有汉字丢进去检索,把返回的词头都搜集起来。

把词头去重后,得出一份词头。

然后再用词头抓第二轮。这样不知道行不行?

当然,我完全不懂爬虫,只是纸上谈兵。

不过百度百科我真没什么兴趣,太多广告式词条,无法和有用的数据分开。有用的数据里还有许多是抄袭的,如《汉语大词典》。

我对维基百科比较感兴趣。听说可以直接下载,不过是json数据?那就不知道怎样处理。

百度百科用单个汉字去撞,只能撞到汉字的数据,不太行。
JSON数据需要编程处理,也有XML格式的数据,或者直接从OpenZIM导出数据也行?应该是HTML格式的(没有试过

https://dumps.wikimedia.org/other/kiwix/zim/

https://wiki.openzim.org/wiki/Zimdump

1 个赞

维基百科:数据库下载

中文版的下载处:

Index of /zhwiki/

确实是xml。

ZIM的使用方法

1 个赞

敢问现在还有链接吗?阿里云盘分享已经被吞了。如果可以的话封包发百度云也行。谢谢大佬。

链接失效了,大佬还有新的链接吗