英文维基百科 En.wikipedia.org 20251102 Preview

older versions where I do dedupe via SQL has them. Look for the ones with the most tabs. I remember some articles about the middle east / controversial topics have duplicates.

I do kept the zh.wikipedia dupes:

1 个赞

过来看看有没有更新。

还没有,最近忙不过来

Go easy on yourself!

过来看一眼,顺便问一下什么进度了。

没啥动力搞这个吃力不讨好的政治敏感的东西。

估计不喜欢的王八蛋只看重钱,商业价值和颜值(它们的政治正确)。

1 个赞

现在有楼主这种精神的人越来越少了,支撑!

1 个赞

谢谢鼓励和欣赏!

1 个赞

英文版得干货还是挺多的

可能是太多了,源数据体积800GB

够大,2023的成品四十多,我还在用

时不时过来看看

好久没消息了,过来看看

250GB装得下,快点上传,zh 110多GB mdd都下起几个月了

只是好奇,用mdx跟用zim格式区别是什么?

设计的目标场景不同 zim 是文明知识的离线备份,支持多页面跳转、目录、全文搜索。

zim数据不完整,比如字典里面的所有例句都丢了,又不是Century Dictionary。

我还以为wikipedia本身的zim数据是全的,只是还额外提供了好几个像dictionary、books之类分支让大家下载。

你可以试试打开字典的zim看看有么有例句。

我不知道zim 有没有刻意丢掉wikipedia内容。可能图像丢了?

字典是指wiktionary吗?我之前只下载了Wikipedia