使用 git 管理词典文件的讨论

我也在想,现在数据集也讲究版本控制。词典作为一种数据,放 GitHub 的话,感觉也方便做更新和发布,容易获得他人贡献就不说了,还能用 Actions 实现流程自动化。

数据问题都不大,问题是别人查不查,还有门槛的问题。

1 个赞

其实数据大小还是一个问题的。。

诶确实。除了大小,可能还有版权。

确实,例如即使指定depth=1,nerd-font那个5个多G的仓库克隆下来要老半天

其他的问题,比如网页端查看这些(例子:一个文件夹里面很多很多文件),大的文本文件的更新我没试过,不知道是怎样更新的。

我觉得大文件完全可以分割,自动构建脚本里再去做合并和打包,不然git diff都看得够呛

小文件吗哈哈,上次我试了在自建 GitLab 上传很多小文件(每个词条装在一个文件里),网页端没法用,虽然命令行用着还好,但是我就是想用网页编辑来着。

多分几个文件夹就行了,按照不同的前n个字符 :grinning:

对的,我后来也是这么想的,摊手。

二进制文件就别想了,而且你要看解压后的文本那diff你一天都看不完

1 个赞

为什么要放mdx呢,直接学github将二进制放release就行了,放仓库里还占.git文件夹的空间

版权问题放在GitHub是不可行的。

可服务器自己搭建,但git的源码是以整个文件的指纹作为是否修改过的依据的,需要每个词条一个文件

git pull时不时还网速慢到你怀疑人生,还不能断点续传(apt可以)