数据: Index of /other/enterprise_html/runs/20231020/ (wikimedia.org)
下载:百度网盘 请输入提取码
图像数据已经超过40GB,600K/4.3M. 估计可能最后mdd 280GB。
图片可以都去掉,只留文本信息,矢量格式的可以尽量保存,20G以内是最好的解决方案
图像不加载mdx即可,就去除了,mdx在线的话就是官网图像。删了也省不了几mb体积。对我来说图像很富含信息。
French Wiktionary and Wikipedia in .slob format
French Wiktionary in MDX format
Wikipedias and WIktionaries all languages in ZIM format