older versions where I do dedupe via SQL has them. Look for the ones with the most tabs. I remember some articles about the middle east / controversial topics have duplicates.
I do kept the zh.wikipedia dupes:
older versions where I do dedupe via SQL has them. Look for the ones with the most tabs. I remember some articles about the middle east / controversial topics have duplicates.
I do kept the zh.wikipedia dupes:
过来看看有没有更新。
还没有,最近忙不过来
Go easy on yourself!
过来看一眼,顺便问一下什么进度了。
没啥动力搞这个吃力不讨好的政治敏感的东西。
估计不喜欢的王八蛋只看重钱,商业价值和颜值(它们的政治正确)。
现在有楼主这种精神的人越来越少了,支撑!
谢谢鼓励和欣赏!
英文版得干货还是挺多的
可能是太多了,源数据体积800GB
够大,2023的成品四十多,我还在用
时不时过来看看
好久没消息了,过来看看
250GB装得下,快点上传,zh 110多GB mdd都下起几个月了
只是好奇,用mdx跟用zim格式区别是什么?
设计的目标场景不同 zim 是文明知识的离线备份,支持多页面跳转、目录、全文搜索。
zim数据不完整,比如字典里面的所有例句都丢了,又不是Century Dictionary。
我还以为wikipedia本身的zim数据是全的,只是还额外提供了好几个像dictionary、books之类分支让大家下载。
你可以试试打开字典的zim看看有么有例句。
我不知道zim 有没有刻意丢掉wikipedia内容。可能图像丢了?
字典是指wiktionary吗?我之前只下载了Wikipedia