如何设计一个自用的压缩率大的词典格式

zheshijie · 2024 年12 月 26 日 11:06

噢，我不是很懂，我的理解是可以自己写个简易的软件，能显示文字加格式就可以，是不是我理解错了

last_idol · 2024 年12 月 26 日 11:09

对，你理解错了。#20 楼第三行的建议更实用，你可以考虑下。

spoony · 2024 年12 月 26 日 11:20

我的tdict用起来倒是很方便。但wikipedia实在太大了。想要做一个版本，必须要有很大的勇气。最主要的难度是国内下载都不方便。我本人一直想要一个用latex的wikipedia。比如说现在就有一个 latex版本的wikipedia mdx源文件。那么转换成其他格式，用markdown和brotli，这都是很容易的。

一句话，latex版本的html源文件就足够了。就是不知道.zim格式里面是否包含的是latex。如果是的话，那么zim格式就很容易转换成任何想要的格式。zim文件下载起来还特别方便，不会那么困难

spoony · 2024 年12 月 26 日 11:26

所以一个最可行的办法就是先不要去改进算法。而是写一些简单的代码来生成一个latex版本的wikipedia。

这样的话你也可以继续用mdx。当然这里面我有一个很大的私心，我本人很想要有一个自己能随意操控的latex版wikipedia。图像版的让我很不爽。

zheshijie · 2024 年12 月 26 日 11:30

原始html版本的维基百科呢，符合你的需求吗？Index of /other/enterprise_html/runs/
里面的数学公式是html自带的math标签

spoony · 2024 年12 月 26 日 11:38

说句实话，这么一个超大的json文件处理起来特别困难。mdx源文件都比他要好得多，哪怕是40g的html文件，只要不是一个换行都没有，一般来说也不需要写什么代码就可以处理，比如直接转换成markdown。

这么一个超大的json, 不去好好的理解他的格式的话，根本就没法转化。

zheshijie · 2024 年12 月 26 日 11:45

不是，很简单的，就是一个json包一个html源代码，你直接用这个大佬的代码就行，En.wiktionary.org mdx 20231001 (10月数据完成) - #85，来自 meandmyhomies

spoony · 2024 年12 月 26 日 11:48

他这个公式是文字版的吗？

zheshijie · 2024 年12 月 26 日 11:52

是，就是html自己的math标签：HTML5 MathML | 菜鸟教程

spoony · 2024 年12 月 26 日 11:55

感谢你的信息，看来这个就是完美版本。我还一直以为目前的版本还是图像版。

zheshijie · 2024 年12 月 26 日 12:04

可以，如果你有兴趣可以试试，mdx版本的对我来说还是太大了

spoony · 2024 年12 月 26 日 12:10

那你可以试试brotli，你看看把一篇完整的文章压缩以后，压缩率怎么样？

这里还有一个要注意的就是我们还有两种方法，一个是把整篇文章压缩，另外一个呢是每64k压缩一下。后面一个方法比较适合于一般的随机检索词典。而第1种方法比较适合wikipedia。

last_idol · 2024 年12 月 26 日 12:17

brotli 相比 zlib -9 压缩率没有多少提升，不如 zstd + 训练自定义词典 + 调整 record_size，大力可以出奇迹。

hua · 2024 年12 月 26 日 12:19

ZSTD 配合相对大的块（比如 1000个 / 10000个词条塞一起）应该是不错的解决方法，然而你需要解决相对大的块解压所需的资源也会多的问题。

spoony · 2024 年12 月 26 日 12:19

现在zstd更好了吗？如果是的话，那就换zstd好了, 代码自己写的话，更换压缩算法部分不会超过100行的。

last_idol · 2024 年12 月 26 日 12:20

现在是 zstd 压缩更好，但不管用 brotli 还是 zstd ，都没有词典软件兼容。

spoony · 2024 年12 月 26 日 12:22

不用管字典软件的兼容性。wikipedia本身就是一个非常重要的字典，只要性能最佳，存储最小，就非常有价值。哪怕你这个软件只对wikipedia管用，他就可能可以风靡世界。

amob · 2024 年12 月 26 日 12:23

你直接用kiwix不就行了？

spoony · 2024 年12 月 26 日 12:24

我现在就是用的这个。但如果压缩上面能更进一步的话，我还是会选择压缩更好的。

hua · 2024 年12 月 26 日 12:25

ZSTD 加自己训练压缩字典是比较好的，这样你代码应该改动多于 100 行

ref: Probably the most underrated feature of zstd (likely because it's so unusual) is... | Hacker News

小惊讶谷歌搜索竟然有本站