我也在想,现在数据集也讲究版本控制。词典作为一种数据,放 GitHub 的话,感觉也方便做更新和发布,容易获得他人贡献就不说了,还能用 Actions 实现流程自动化。
数据问题都不大,问题是别人查不查,还有门槛的问题。
1 个赞
其实数据大小还是一个问题的。。
诶确实。除了大小,可能还有版权。
确实,例如即使指定depth=1,nerd-font那个5个多G的仓库克隆下来要老半天
其他的问题,比如网页端查看这些(例子:一个文件夹里面很多很多文件),大的文本文件的更新我没试过,不知道是怎样更新的。
我觉得大文件完全可以分割,自动构建脚本里再去做合并和打包,不然git diff都看得够呛
小文件吗哈哈,上次我试了在自建 GitLab 上传很多小文件(每个词条装在一个文件里),网页端没法用,虽然命令行用着还好,但是我就是想用网页编辑来着。
多分几个文件夹就行了,按照不同的前n个字符
对的,我后来也是这么想的,摊手。
二进制文件就别想了,而且你要看解压后的文本那diff你一天都看不完
1 个赞
为什么要放mdx呢,直接学github将二进制放release就行了,放仓库里还占.git文件夹的空间
版权问题放在GitHub是不可行的。
可服务器自己搭建,但git的源码是以整个文件的指纹作为是否修改过的依据的,需要每个词条一个文件
git pull时不时还网速慢到你怀疑人生,还不能断点续传(apt可以)
我想了想,这应该是第三个独立的命令行工具。
胶水,把 git 和 mdict 粘起来。
- 上传时,解压自动处理
- 纯 git 管理部分:上传 git 文本的变动部分
- md5 管理部分:可以上传 mdx, mdd 文件到文件服务器,server 自动解压成源文件进行 git 及 文件MD5为依据的纯文件更新。
- 更新下载时
- 对二进制文件,读取 server 的 md5 列表,与本地文件对比,少的、变动的才下载该文件。
- 对文本文件(txt, js, css),git 更新变动部分。
- 下载后,自动调用 mdict 命令打包到原目录。
1 个赞