En.wiktionary.org mdx 20231001 (10月数据完成)

期待纯英文的,还有百科的英文。

1 个赞

百科英文350+个2gb 的json数据,处理中,估计至少要一个礼拜。

1 个赞

10月20的数据出了,还有wikibooks和wikisource,中英版的值得做

谢谢提醒,天啊太快,希望内容比10.01的完整

1 个赞

看来字典内容完全缩水,只剩下百科:

title size (bytes)
enwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 122900708585
cebwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 49916631754
frwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 42718898330
ruwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 34743833265
dewiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 30709516883
zhwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 26354982278
jawiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 25710446752
itwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 24236839060
arwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 24226794889
eswiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 24155129880
ukwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 20992864457
svwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 16908343930
plwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 16208652853
srwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 14429399610
ptwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 14257853730
arzwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 13977016935
fawiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 10869034049
nlwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 10478910955
viwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz 9288642970
2 个赞

字典搞个英文的,百科搞个英文的和中文的就差不多了。derived terms很多都不能跳转,您修改的ylx的版本都可以,例句真的有些乱,越缩进看着越占用空间,要是能默认隐藏就好了,因为是在手机词典上看的,希望楼主能改进适配一下手机词典上的体验,谢谢了。

例句缩进是官网css。我会加隐藏功能。官网css很松散,我并不喜欢。没时间弄。如果你有空可以紧凑一下css。

英文字典漏掉很多词,你可以检查一下源数据(直接搜索丢失的terms)

中文百科就是174GB
英文百科700GB
处理起来很艰苦,和过草地差不多。

3 个赞

谢谢解答,明白了。看来需要一个1t版本的遥遥领先了。

我查了一下其它日期的wiktionary,发现9月1的版本最大,应该最全,每次版本差别挺大,还不稳定

谢谢提醒。

奇怪,10月20里面的wiktionary只有之前的几十分之一。难道是仅仅发布有改动的内容?
如果这样的话,体积还得翻倍啊。我看看9月1号的内容。十月的内容够大,不可能都是有更新吧?

正常更新不可能差距这么大,只能是整理数据的人或代码还不稳定,kiwix数据库我也发现过这个问题

这个dump估计还处于beta阶段,波动这么大可能是alpha阶段。成长的烦恼啊。

更新:上传了 1-100个json (200GB) 合并的mdx(15GB),2023-10-20的数据

还有250个json(500GB)要弄成mdx,估计还有40GB of mdx,在处理中。

2 个赞

字典没有更新吧

字典除了图像和语音(体积10GB以上)已经完成了

数据不完整是已知无解问题。以至于纯English版本没有意义。

1 个赞

如果有精力的话可以制作9月1的版本,更大应该更完整,以后专心维护这个版本就行,一般来说,每次更新幅度不会很大,像这种巨型字典和百科,一年更新一次没什么问题

自动化了以后会省事很多(解决了控制内存膨胀和几个瓶颈)不排除不停更新。

我一定会把9月一号的做一下。相对来说,字典体积很小,百科才是太大了(700GB)

对这部英文词典寄予厚望,可是现在由于数据缺失,只能无奈!
谢谢!

目测09月1号的内容比10月1号的足足多了60%(按体积算)
我会根据09月1号来决定是不是做English only版本。

另外我会合并两个版本(重复部分取日期新的)看看是不是完整。

最新版本源数据居然只有1个json文件。。。

3 个赞

期待英文词典和百科,危机词典比其他词典要全,因为这几年都没人做新的urbandictionary,所以有些词的意思只能在危机词典里看到,英文百科是所有语言中最全的,虽然中文看起来更亲切,到全面性差很多。