第一,有没有开源地址,github 或 gitee。
如果没有,我觉得你最好创建一个开源项目。
你研究的成果,在你日后不想折腾时,不会放在硬盘里吃灰,或许能带给后人一点启发
你搜集到的语料集,可以放到 huggingface 上,供他人下载。
第二,一些看法
1。两千多万的词库,这是什么概念。。。。搜狗的本地词库可能也就几百万。
你在课本上没有学过边际效应吗?
2。整句的输入场景(即一次性输入六个字以上),可能并没你想的这么多,大部分人还是分词输入,一次性输入 2-4字 。(我就不说原因了,自己想)
整句输入手机上可能更多一些。
想明白,你搞这些东西是给谁用的,是网络上占舆论优势的小众群体,还是沉默的大多数。
3。你就盯着搜狗输入法研究就行了,人家真金白银请专业人士开发的商业软件,吊打一切输入法。
我曾做过一点微小的输入法工作,给你一些建议
A。优化词库。
先明白一件事,一个输入法有两个词库,系统词库和用户词库,
200万真有些多了,精简一下,做好词和字频率,足够使用,没有的让用户自己输入
B。缝合一个中文语言模型到输入法里
不要自己去开发,做这个事的人多了去,缝合一个就行
C。如果有余力,放弃 rime ,拥抱苹果生态,利用 swiftUI 和 苹果提供的 api 从头构建一个输入法。
这个事在苹果生态里并不难,也有很多先例可供你参考。
下面是一个比较完整的例子
在 windows 上从头开发一个输入法就比较难了。
搜狗之所以强
第一点,它能够结合上下文和用户词库动态去调频
第二点,它能根据已有的词组去组成更长的句子
第三点,它能利用网络扩展词汇,不需要数量夸张的词库,并且词频合理,新词热词不缺
第四点,它展示的候选词,是综合考量的结果,上下文分析,用户词频,是否组成整句,云词库
第五点,它有辅助码,可以辅助用户定位候选词,前面满足普通人,最后一个满足高手
https://pinyin.sogou.com/help.php?list=3&q=12
这是投入了很多人力优化的结果,个人很难搞出来
说一个我在读大学时的结论,形码靠人力,音码靠科技
说真的哥们,你从一开始折腾的方向就错了
如果你觉得搜狗输入可能会暴露隐私,这很好解决
禁用它的网络连接,让搜狗输入法无法向外发送数据即可
谷歌 “如何禁用应用连接网络” 会有教程