噢,我不是很懂,我的理解是可以自己写个简易的软件,能显示文字加格式就可以,是不是我理解错了
对,你理解错了。#20 楼第三行的建议更实用,你可以考虑下。
我的tdict用起来倒是很方便。但wikipedia实在太大了。想要做一个版本,必须要有很大的勇气。最主要的难度是国内下载都不方便。我本人一直想要一个用latex的wikipedia。比如说现在就有一个 latex版本的wikipedia mdx源文件。那么转换成其他格式,用markdown和brotli,这都是很容易的。
一句话,latex版本的html源文件就足够了。就是不知道.zim格式里面是否包含的是latex。如果是的话,那么zim格式就很容易转换成任何想要的格式。zim文件下载起来还特别方便,不会那么困难
所以一个最可行的办法就是先不要去改进算法。而是写一些简单的代码来生成一个latex版本的wikipedia。
这样的话你也可以继续用mdx。当然这里面我有一个很大的私心,我本人很想要有一个自己能随意操控的latex版wikipedia。图像版的让我很不爽。
原始html版本的维基百科呢,符合你的需求吗?Index of /other/enterprise_html/runs/
里面的数学公式是html自带的math标签
说句实话,这么一个超大的json文件处理起来特别困难。mdx源文件都比他要好得多, 哪怕是40g的html文件, 只要不是一个换行都没有, 一般来说也不需要写什么代码就可以处理,比如直接转换成markdown。
这么一个超大的json, 不去好好的理解他的格式的话,根本就没法转化。
不是,很简单的,就是一个json包一个html源代码,你直接用这个大佬的代码就行,En.wiktionary.org mdx 20231001 (10月数据完成) - #85,来自 meandmyhomies
他这个公式是文字版的吗?
是,就是html自己的math标签:HTML5 MathML | 菜鸟教程
感谢你的信息,看来这个就是完美版本。我还一直以为目前的版本还是图像版。
可以,如果你有兴趣可以试试,mdx版本的对我来说还是太大了
那你可以试试brotli,你看看把一篇完整的文章压缩以后,压缩率怎么样?
这里还有一个要注意的就是我们还有两种方法,一个是把整篇文章压缩,另外一个呢是每64k压缩一下。后面一个方法比较适合于一般的随机检索词典。而第1种方法比较适合wikipedia。
brotli 相比 zlib -9 压缩率没有多少提升,不如 zstd + 训练自定义词典 + 调整 record_size,大力可以出奇迹。
ZSTD 配合相对大的块(比如 1000个 / 10000个 词条塞一起)应该是不错的解决方法,然而你需要解决相对大的块解压所需的资源也会多的问题。
现在zstd更好了吗?如果是的话,那就换zstd好了, 代码自己写的话,更换压缩算法部分不会超过100行的。
现在是 zstd 压缩更好,但不管用 brotli 还是 zstd ,都没有词典软件兼容。
不用管字典软件的兼容性。wikipedia本身就是一个非常重要的字典,只要性能最佳,存储最小,就非常有价值。哪怕你这个软件只对wikipedia管用,他就可能可以风靡世界。
你直接用kiwix不就行了?
我现在就是用的这个。但如果压缩上面能更进一步的话,我还是会选择压缩更好的。
ZSTD 加自己训练压缩字典是比较好的,这样你代码应该改动多于 100 行
ref: Probably the most underrated feature of zstd (likely because it's so unusual) is... | Hacker News
小惊讶 谷歌搜索竟然有本站