Ja Wikipedia.org 20251213 日语维基百科 更新

m老大,可以分享一下制作工具吗

楼主:很需要离线图像,但您1楼的百度网盘里面没有那个76G的文件,请重新分享下好么?

我打算更新20251214版本,数据已经下载好了。

到时候增加离线的mdd,记不得也找不到2023的大mdd了。

谢谢,等你的大作,估计图像要100G了吧

主要等英文维基呢

太大了,在重新底层重写代码和基座,要折腾一下。

3 个赞

难说,估计去掉视频不会超过100GB

@weist123 @hjtoh

更新了20251213的版本。

离线mdd在打包路上。

4 个赞

太感谢您了,等离线mdd出来了马上腾出硬盘下载!离线mdd很有必要,不然国内看在线基本都不出图。
希望设置下默认就出离线图片。

不知道wiki被墙了。

mdd打包折腾了四个半小时,体积因为除去了视频,只有8.52GB
1969924/1969924 [4:24:33<00:00, 124.10rec/s]

你测试一下,看看有没有大问题。

那很好了,视频没有就算了,图片是必须的,我下载看看。

下载使用了一下。mdd文件比较小,图片至少缺失三分之一。

大概率是路径不对,文件总数是基本上对的 (src,href)

我修复路径(可能要更新mdx)

1 个赞

期待更新。确实很多图片不能显示。谢谢!

我感觉还有一个原因,mdd文件太小,本身图片数就不够。

我对比了一下Kiwix的zim文件,日语有图版比无图版大了13G。而且这个mdict版本图片分辨率比kiwix版高,因此仅仅包含图片的mdd文件大小应该不低于13G。

在打包之前,体积将近20GB,里面的png在打包时候体积缩小很多。

我到现在没发现一个没有文件或者文件位置不对的例子。貌似就是有时候本地的图像png不被显示。

文件里面是图像的地址,你能找到一个漏掉的例子么?按理来说应该很容易的,可是我一个都找不到。

urls.part01.rar (10 MB)
urls.part02.rar (10 MB)
urls.part03.rar (10 MB)
urls.part04.rar (2.0 MB)

发现数据URL会有小版本的图像,但是最大分辨率的没有直接给出

https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg/480px-Setouchi.jpg
https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg/500px-Setouchi.jpg
https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg/960px-Setouchi.jpg

https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg

最大的在这里,去掉thumb文件夹
https://upload.wikimedia.org/wikipedia/commons/2/20/Setouchi.jpg

看来要加一些逻辑来提取最大的分辨率。

1 个赞

楼主辛苦了,慢慢来,不着急。

维基文库可以搞吗,可以当一个不错的语料库