m老大,可以分享一下制作工具吗
楼主:很需要离线图像,但您1楼的百度网盘里面没有那个76G的文件,请重新分享下好么?
我打算更新20251214版本,数据已经下载好了。
到时候增加离线的mdd,记不得也找不到2023的大mdd了。
谢谢,等你的大作,估计图像要100G了吧
主要等英文维基呢
太大了,在重新底层重写代码和基座,要折腾一下。
难说,估计去掉视频不会超过100GB
太感谢您了,等离线mdd出来了马上腾出硬盘下载!离线mdd很有必要,不然国内看在线基本都不出图。
希望设置下默认就出离线图片。
不知道wiki被墙了。
mdd打包折腾了四个半小时,体积因为除去了视频,只有8.52GB
1969924/1969924 [4:24:33<00:00, 124.10rec/s]
你测试一下,看看有没有大问题。
那很好了,视频没有就算了,图片是必须的,我下载看看。
下载使用了一下。mdd文件比较小,图片至少缺失三分之一。
大概率是路径不对,文件总数是基本上对的 (src,href)
我修复路径(可能要更新mdx)
期待更新。确实很多图片不能显示。谢谢!
我感觉还有一个原因,mdd文件太小,本身图片数就不够。
我对比了一下Kiwix的zim文件,日语有图版比无图版大了13G。而且这个mdict版本图片分辨率比kiwix版高,因此仅仅包含图片的mdd文件大小应该不低于13G。
在打包之前,体积将近20GB,里面的png在打包时候体积缩小很多。
我到现在没发现一个没有文件或者文件位置不对的例子。貌似就是有时候本地的图像png不被显示。
文件里面是图像的地址,你能找到一个漏掉的例子么?按理来说应该很容易的,可是我一个都找不到。
urls.part01.rar (10 MB)
urls.part02.rar (10 MB)
urls.part03.rar (10 MB)
urls.part04.rar (2.0 MB)
发现数据URL会有小版本的图像,但是最大分辨率的没有直接给出
有
https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg/480px-Setouchi.jpg
https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg/500px-Setouchi.jpg
https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg/960px-Setouchi.jpg
无
https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Setouchi.jpg
最大的在这里,去掉thumb文件夹
https://upload.wikimedia.org/wikipedia/commons/2/20/Setouchi.jpg
看来要加一些逻辑来提取最大的分辨率。
楼主辛苦了,慢慢来,不着急。
维基文库可以搞吗,可以当一个不错的语料库
