期待纯英文的,还有百科的英文。
百科英文350+个2gb 的json数据,处理中,估计至少要一个礼拜。
10月20的数据出了,还有wikibooks和wikisource,中英版的值得做
谢谢提醒,天啊太快,希望内容比10.01的完整
看来字典内容完全缩水,只剩下百科:
| title | size (bytes) |
|---|---|
| enwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 122900708585 |
| cebwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 49916631754 |
| frwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 42718898330 |
| ruwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 34743833265 |
| dewiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 30709516883 |
| zhwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 26354982278 |
| jawiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 25710446752 |
| itwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 24236839060 |
| arwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 24226794889 |
| eswiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 24155129880 |
| ukwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 20992864457 |
| svwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 16908343930 |
| plwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 16208652853 |
| srwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 14429399610 |
| ptwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 14257853730 |
| arzwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 13977016935 |
| fawiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 10869034049 |
| nlwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 10478910955 |
| viwiki-NS0-20231020-ENTERPRISE-HTML.json.tar.gz | 9288642970 |
字典搞个英文的,百科搞个英文的和中文的就差不多了。derived terms很多都不能跳转,您修改的ylx的版本都可以,例句真的有些乱,越缩进看着越占用空间,要是能默认隐藏就好了,因为是在手机词典上看的,希望楼主能改进适配一下手机词典上的体验,谢谢了。
例句缩进是官网css。我会加隐藏功能。官网css很松散,我并不喜欢。没时间弄。如果你有空可以紧凑一下css。
英文字典漏掉很多词,你可以检查一下源数据(直接搜索丢失的terms)
中文百科就是174GB
英文百科700GB
处理起来很艰苦,和过草地差不多。
谢谢解答,明白了。看来需要一个1t版本的遥遥领先了。
我查了一下其它日期的wiktionary,发现9月1的版本最大,应该最全,每次版本差别挺大,还不稳定
谢谢提醒。
奇怪,10月20里面的wiktionary只有之前的几十分之一。难道是仅仅发布有改动的内容?
如果这样的话,体积还得翻倍啊。我看看9月1号的内容。十月的内容够大,不可能都是有更新吧?
正常更新不可能差距这么大,只能是整理数据的人或代码还不稳定,kiwix数据库我也发现过这个问题
这个dump估计还处于beta阶段,波动这么大可能是alpha阶段。成长的烦恼啊。
更新:上传了 1-100个json (200GB) 合并的mdx(15GB),2023-10-20的数据
还有250个json(500GB)要弄成mdx,估计还有40GB of mdx,在处理中。
字典没有更新吧
字典除了图像和语音(体积10GB以上)已经完成了
数据不完整是已知无解问题。以至于纯English版本没有意义。
如果有精力的话可以制作9月1的版本,更大应该更完整,以后专心维护这个版本就行,一般来说,每次更新幅度不会很大,像这种巨型字典和百科,一年更新一次没什么问题
自动化了以后会省事很多(解决了控制内存膨胀和几个瓶颈)不排除不停更新。
我一定会把9月一号的做一下。相对来说,字典体积很小,百科才是太大了(700GB)
对这部英文词典寄予厚望,可是现在由于数据缺失,只能无奈!
谢谢!
目测09月1号的内容比10月1号的足足多了60%(按体积算)
我会根据09月1号来决定是不是做English only版本。
另外我会合并两个版本(重复部分取日期新的)看看是不是完整。
最新版本源数据居然只有1个json文件。。。
期待英文词典和百科,危机词典比其他词典要全,因为这几年都没人做新的urbandictionary,所以有些词的意思只能在危机词典里看到,英文百科是所有语言中最全的,虽然中文看起来更亲切,到全面性差很多。
