中文维基 zh.wikipedia.org 20251011数据,10/30 更新 (离线图像和发音)

因为今天修改上限到了(只改了一次啊),只能开新贴。

2025-10-21

新数据来自官网wikimedia
图像发音TBD

老版本,貌似有些内容倒退(还是进步?),比如 ”冬瓜“ 的图片被审核掉了。
中文维基 zh.wikipedia.org 20231001 (9月离线123GB照片+10月mdx)

11 个赞

ZH20251011 文件夹里面

1 个赞

2023的版本一百多g呢,新版好小。

只有英文wikipedia才有100多GB,mdx本身就这么大。mdd目前大概60-70GB

中文2023版的1.mdd是133g,mdx但是和新版差不多,英文的mdx2023版的是四十多g。

新版mdd在路上,分三个

英文好像数据是170gb,大约1.5TB,mdx出来也很大。之前的40gb是三个mdx合并的。

一般来说tar.gz => mdx体积基本类似。目前我不确定该多大的英文mdx,折腾完了才知道

1 个赞

明白,但愿中英文都是完整离线,手机还有五百g等待填,哈哈哈。

有啥问题告知,我估计特别大的问题应该不会出现。

比如之前2023的英文Wiktionary数据漏掉几十万词头的情况。

好的,我看到你在上传mdd分割包,等着你上传完我再下载。

妈呀,这么大,我只看看就好了。这再一索引,估计电脑都歇菜了。

这个厉害,下半年弄个1t的手机来装

我看到文件夹里有个.1A.mdd,这种命名方式以前没见过,应该没有问题吧?

非常感谢制作。还有EN20251011这个文件夹里面是空的。要是能够把mdd文件切分的小一些就好了,我的设备不能修改下载地址,只能下载到设备的内部储存里面,然后移动到SD卡,而内部储存最多只有30多g的空间。所以只能下载一个小文件,就移动一个,再下另一个。

只要mdx+mdd就行了,

1/2/3.mdd体积巨大,都是离线音频/照片/视频。在线的话不用下载。

1 个赞

还在折腾,先别下载1/2/3.mdd
mdx+mdd可以下载。

6老大,等您分享api返回的元数据,我可以在此基础上做一个自己喜欢的版本吗?就是去除开头的tab相关以后的版本吧

DATA文件夹里面有英文wiki,你打开试试看。格式都互通的。

词条应该有漏,我昨天查2023版是有二十八宿的,今天把旧版删了,新版查不到了,还有我发现有些词条的参考文献是双列排版的,新版的排版也看着更素更乱了。词条也是乱的,搜三角函数出来的是计算机代数系统。

搜六某肆事件、海伦公式也是没有,润了、润人之类的也是搜不到,词条提取应该问题比较多。

谢谢,让我看看是处理的问题还是数据问题。
obviously, 只能修复前者。