把整栋楼爬完了,感慨于楼主投入心血之多,非常感谢,您做的事情非常有价值。
最近这几个月楼主有没有什么改进呀?
"在linux平台生成词库索引需要22.2GB的内存"可不可以用linux交换分区替代?
这个新小狼毫版本可以使用了,7-11系统都可以用,之前之前的版本发信息7不能用,我也不太会定制就是安装了直接用,建议楼主的可以用此版本打包制作否?可以看看
注意到链接都是取消分享了,不知近况如何。
小狼毫重新开始更新了。
词库生成,据闻内存占用降低了两三成。Tweak to Save Memory Consumption When Compiling Dictionaries by WhiredPlanck · Pull Request #661 · rime/librime · GitHub
已经用上新版了,无缝切换,但没感觉有什么特别的。总之用新的就对了。
最近这几个月楼主有没有什么改进呀?
第一,有没有开源地址,github 或 gitee。
如果没有,我觉得你最好创建一个开源项目。
你研究的成果,在你日后不想折腾时,不会放在硬盘里吃灰,或许能带给后人一点启发
你搜集到的语料集,可以放到 huggingface 上,供他人下载。
第二,一些看法
1。两千多万的词库,这是什么概念。。。。搜狗的本地词库可能也就几百万。
你在课本上没有学过边际效应吗?
2。整句的输入场景(即一次性输入六个字以上),可能并没你想的这么多,大部分人还是分词输入,一次性输入 2-4字 。(我就不说原因了,自己想)
整句输入手机上可能更多一些。
想明白,你搞这些东西是给谁用的,是网络上占舆论优势的小众群体,还是沉默的大多数。
3。你就盯着搜狗输入法研究就行了,人家真金白银请专业人士开发的商业软件,吊打一切输入法。
我曾做过一点微小的输入法工作,给你一些建议
A。优化词库。
先明白一件事,一个输入法有两个词库,系统词库和用户词库,
200万真有些多了,精简一下,做好词和字频率,足够使用,没有的让用户自己输入
B。缝合一个中文语言模型到输入法里
不要自己去开发,做这个事的人多了去,缝合一个就行
C。如果有余力,放弃 rime ,拥抱苹果生态,利用 swiftUI 和 苹果提供的 api 从头构建一个输入法。
这个事在苹果生态里并不难,也有很多先例可供你参考。
下面是一个比较完整的例子
在 windows 上从头开发一个输入法就比较难了。
搜狗之所以强
第一点,它能够结合上下文和用户词库动态去调频
第二点,它能根据已有的词组去组成更长的句子
第三点,它能利用网络扩展词汇,不需要数量夸张的词库,并且词频合理,新词热词不缺
第四点,它展示的候选词,是综合考量的结果,上下文分析,用户词频,是否组成整句,云词库
第五点,它有辅助码,可以辅助用户定位候选词,前面满足普通人,最后一个满足高手
https://pinyin.sogou.com/help.php?list=3&q=12
这是投入了很多人力优化的结果,个人很难搞出来
说一个我在读大学时的结论,形码靠人力,音码靠科技
说真的哥们,你从一开始折腾的方向就错了
如果你觉得搜狗输入可能会暴露隐私,这很好解决
禁用它的网络连接,让搜狗输入法无法向外发送数据即可
谷歌 “如何禁用应用连接网络” 会有教程
虽然,有这么多理由。。。。
但是,从用户角度看,我还是觉得RIME是目前我用过的最佳的输入法,普通用户稍微学习一下,就可以按需定制、完全可控,这种日积月累的个性化改进远远超过各种商业软件的一两个特性来得重要,也不必受扰于商业软件的各种弊端——隐私、广告、服务中断、死亡、倒闭、强制升级等。
关于楼主的超级词库,一开始我也不太能理解,因为之前都是挑选使用经过严格验证的、准确度高的词库,但经过一定调适,发现楼主的词库是真香。
这个个人编译的rime可以用在win7是吗?