是,如果zim数据完整,我就不用折腾这些wiki的mdx了。
目前还没时间折腾全部重写流程,来处理TB数据。
英文wikipedia是唯一一个use case。
你试着打开看一看有没有例句,或者其他丢掉的内容。如果它完整的话,我就不会折腾了。。
或者你可以直接在这个网站去预览下每个zim的区别,有些光看网站上的名字看不出区别
好像以前没有例句,图像没有的话还得折腾这里的版本。
1 Like
感谢您一直坚持不懈。
1 Like
我看wikipedia的zim格式内容似乎是全的。但我看的是ja没有看en。可能不同类别像wikipedia, wikibooks, wikdictionary, wikimedia, wikinews的内容完整性还不太一样
是的,没有任何理由在文字数据上砍掉内容。
图像估计如果zim有离线链接接也可以,难道是zim格式完全不支持联网数据。
我也不是很懂zim格式特点,但确实提供下载的zim里面全是离线内容,没有需要在线读取的内容。标记no pics的zim打开直接就是没有任何图像信息,里面没有占位也没有图片链接
貌似zim修复了丢掉的例句。但是仍然丢掉图像链接。这要是修复了,就没必要折腾了。
可惜zim没有保留multimedia内容(比如视频和地图)。不晓得有没有保留跳转其他网页的链接,比如在reference section。
文字完整版reference session外链都是保留了的,点的时候会提示是否打开。
Wikipedia有文字简略版体积很小,那个就只保留了概述部分,其它章节和ref session都删了。
2 Likes
过来看看,还是没有进展吗
还没空,短平快可能加工一下Akira的版本就行了。
长久还是要找到能快速(一个SQL Select)合成1TB文字的方法。
不懂技术,慢慢等吧。


