因为今天修改上限到了(只改了一次啊),只能开新贴。
2025-10-21
新数据来自官网wikimedia
图像发音TBD
老版本,貌似有些内容倒退(还是进步?),比如 ”冬瓜“ 的图片被审核掉了。
中文维基 zh.wikipedia.org 20231001 (9月离线123GB照片+10月mdx)
因为今天修改上限到了(只改了一次啊),只能开新贴。
新数据来自官网wikimedia
图像发音TBD
老版本,貌似有些内容倒退(还是进步?),比如 ”冬瓜“ 的图片被审核掉了。
中文维基 zh.wikipedia.org 20231001 (9月离线123GB照片+10月mdx)
在 ZH20251011 文件夹里面
2023的版本一百多g呢,新版好小。
只有英文wikipedia才有100多GB,mdx本身就这么大。mdd目前大概60-70GB
中文2023版的1.mdd是133g,mdx但是和新版差不多,英文的mdx2023版的是四十多g。
新版mdd在路上,分三个
英文好像数据是170gb,大约1.5TB,mdx出来也很大。之前的40gb是三个mdx合并的。
一般来说tar.gz => mdx体积基本类似。目前我不确定该多大的英文mdx,折腾完了才知道
明白,但愿中英文都是完整离线,手机还有五百g等待填,哈哈哈。
有啥问题告知,我估计特别大的问题应该不会出现。
比如之前2023的英文Wiktionary数据漏掉几十万词头的情况。
好的,我看到你在上传mdd分割包,等着你上传完我再下载。
妈呀,这么大,我只看看就好了。这再一索引,估计电脑都歇菜了。
这个厉害,下半年弄个1t的手机来装
我看到文件夹里有个.1A.mdd,这种命名方式以前没见过,应该没有问题吧?
非常感谢制作。还有EN20251011这个文件夹里面是空的。要是能够把mdd文件切分的小一些就好了,我的设备不能修改下载地址,只能下载到设备的内部储存里面,然后移动到SD卡,而内部储存最多只有30多g的空间。所以只能下载一个小文件,就移动一个,再下另一个。
只要mdx+mdd就行了,
1/2/3.mdd体积巨大,都是离线音频/照片/视频。在线的话不用下载。
还在折腾,先别下载1/2/3.mdd
mdx+mdd可以下载。
6老大,等您分享api返回的元数据,我可以在此基础上做一个自己喜欢的版本吗?就是去除开头的tab相关以后的版本吧
DATA文件夹里面有英文wiki,你打开试试看。格式都互通的。
搜六某肆事件、海伦公式也是没有,润了、润人之类的也是搜不到,词条提取应该问题比较多。
谢谢,让我看看是处理的问题还是数据问题。
obviously, 只能修复前者。