下载维基百科的离线数据提取了词头和网址拼接了,三百多万,已经下了二十多万网页了,有人没合作一起下载合作制作吗?图片url和二十多万网页的url链接提取来了,开的魔法下的太慢了
1 个赞
维基每过一段时间是有完整数据放出的,你用的是这个吗?
1 个赞
goldendict-ng 支持最新的 ZIM 标准,可以直接用 wikiepdia 的 zim dump,除了 wikipedia 以外,kiwix 还有其它的网站可以用
https://library.kiwix.org/?category=
https://dumps.wikimedia.org/other/kiwix/zim/wikipedia/
也可以把文件直接解压出来 GitHub - openzim/zim-tools: Various ZIM command line tools
zimdump.exe dump --dir=/outputdir/ /path_to_file/what.zim
5 个赞
请问, 你会不会 从zim里面提取数据?
请问, exe 文件是你自己编译的吗?
不是,从这里下载的 Index of /release/zim-tools/
windows 在最最下面 zim-tools_win...........zip
不嫌麻烦的话,也可以从 WSL 里 apt install zim-tools
。
这个工具, 是从原始数据 到 zim 对吧?
zimdump 是把 zim 解压成原始数据,具体的文档可以看 zimdump.exe --help
zimwriterfs 可以把原始数据打包成 zim (但是这个工具暂时没有移植到 windows 上 )
怎么用都不对呢, 烦请, 举个实例呢, 参数怎么设置的
zimdump dump --dir=what mydict.zim
文档在 zimdump.exe --help 里