百度百科1200万完整条目数据txt

iwlb · 2023 年2 月 11 日 01:47

百度百科1200万条完整条目数据txt
几年前在某论坛找到的百度百科条目数据, 应该是包含了2020年以前的所有条目，有35GB txt数据，220GB html数据，7TB相册图片数据。
txt我下载到了，其他没下载到，现在分享给大家，有能力的可以做成mdx。

阿里云盘下载地址：
百度百科1200万完整条目数据txt
提取码：
4i3p

shaoshi · 2023 年2 月 11 日 02:17

欢迎分享资料。

以前我曾把一个百度百科的数据做成Access数据库，发现比四库全书的数据还大，但是充满内置广告的垃圾。我无法把有用的数据和垃圾分开，只好弃之不用。我个人认为：维基百科比较有用。

供参考：

百度百科2011+互动百科2012纯文字版-2020.4阿弥陀佛

百度百科2012纯文字版【阿彌陀佛】修訂2020.3.30

Index of /uploads/137229/度娘百科2020/
按：5个mdx加起来小于20g。大概还行？理论上数据库越大越好，但是自己的电脑配置要够强才行。数据库大到电脑跑不动，就完全没用了。

Index of /100G_Super_Big_Collection/百科/互动百科/

Index of /100G_Super_Big_Collection/百科/维基百科/

Index of /100G_Super_Big_Collection/百科/邱海波维基更新到20171009/中文维基百科/

不列颠百科全书（国际中文版）

参看：

新手指南：怎样找资料？

aimdict · 2023 年2 月 11 日 02:57

百度百科，且不管内容质量如何，只要能上网，随时就查了，而且不断更新，这个那么大，有必要吗？

surfactant · 2023 年2 月 11 日 04:44

制作完成后凭mdx/mdd到百度hr领取入职通知书一份

tzq0014 · 2023 年2 月 12 日 08:44

需要借助网络的东西永远靠不住，我们追求的是本地化，自己可控，而不是你一句“随时可查”就否认了许多类似辞典的的存在。再说，百度百科自有它的价值，联合查询时和维基对比也能发现各自的可笑之处。再说同一词条的不同版本对比，本就是求知的过程。

dada · 2023 年2 月 12 日 08:50

还有一个问题，经过censored的baidupedia权威性如何，是否值得本地化？就像苏联大百科有在democratic国家看来十分荒谬的东西。

last_idol · 2023 年2 月 12 日 10:40

请教下，有谁知道百度百科的条目数据是怎么爬取的？是拿什么词头撞的吗？还是有现成的索引？

shaoshi · 2023 年2 月 12 日 11:26

我外行，这个你应该是专家吧？虚怀若谷。我谷歌到这个：

BaikeKnowledgeSchema

另外有：

python自动规则化抓取百度百科词条数据

Python爬虫实现爬取百度百科词条功能实例

Python抓取百度百科数据
本文整理自慕课网《Python开发简单爬虫》(Python开发简单爬虫_python爬虫入门教程_python爬虫视频教程-慕课网)，将会记录爬取百度百科“python”词条相关页面的整个过程。
Python抓取百度百科数据 - VoidKing - SegmentFault 思否

last_idol · 2023 年2 月 12 日 11:48

之前的数据，包括上面链接里的，使用都是类似撞库的方式爬取的数据，会缺失一些冷门孤立的词条，如果没有现成索引的话，就只能使用这种方式了。

shaoshi · 2023 年2 月 12 日 12:28

百度百科的词头应该没有私用区字和图像字？

假如分两轮抓，第一轮先把所有汉字丢进去检索，把返回的词头都搜集起来。

把词头去重后，得出一份词头。

然后再用词头抓第二轮。这样不知道行不行？

当然，我完全不懂爬虫，只是纸上谈兵。

不过百度百科我真没什么兴趣，太多广告式词条，无法和有用的数据分开。有用的数据里还有许多是抄袭的，如《汉语大词典》。

我对维基百科比较感兴趣。听说可以直接下载，不过是json数据？那就不知道怎样处理。

last_idol · 2023 年2 月 12 日 13:28

百度百科用单个汉字去撞，只能撞到汉字的数据，不太行。
JSON数据需要编程处理，也有XML格式的数据，或者直接从OpenZIM导出数据也行？应该是HTML格式的（没有试过

https://dumps.wikimedia.org/other/kiwix/zim/

https://wiki.openzim.org/wiki/Zimdump

shaoshi · 2023 年2 月 12 日 13:59

维基百科:数据库下载

zh.wikipedia.org

维基百科:数据库下载

维基百科提供所有完整内容的电子文件（称为“数据库转储文件”）给有兴趣的用户。这些资料可以被重复使用，当作镜像站点，或是个人使用，或是资料备份，或是分析。所有维基百科文章都在知识共享署名-相同方式共享 3.0协议下发布，图片以及其他文件则可能以其他的许可证发布，详情参见Wikipedia:著作权信息数据库转储文件，也可特指名为 *-pages-articles.xml.bz2 的文件，大约每周更新一次。此文件包含了当前版本的条目、模板、图片描述及基本的元页面（不包括讨论页和用户页）。这已经可以满足绝大多数需求了，如有特殊需求，请根据压缩文件的描述下载。 (※)注意，不同语言的条目内容不一定相同，欢迎您协助翻译不完善的条目或提出翻译请求。

中文版的下载处：

Index of /zhwiki/

确实是xml。

ZIM的使用方法

tmzncty · 2023 年5 月 16 日 23:03

敢问现在还有链接吗？阿里云盘分享已经被吞了。如果可以的话封包发百度云也行。谢谢大佬。

jack1 · 2023 年8 月 13 日 05:13

链接失效了，大佬还有新的链接吗

klxq520 · 2025 年7 月 5 日 12:02

链接失效了，还能重新补吗？

luohanguo · 2025 年7 月 31 日 17:29

同求链接，这个失效了，万分感谢。1552186035@qq.com