鸿雁输入法——整句输入法中一颗冉冉升起的新星

第一,有没有开源地址,github 或 gitee。

如果没有,我觉得你最好创建一个开源项目。

你研究的成果,在你日后不想折腾时,不会放在硬盘里吃灰,或许能带给后人一点启发

你搜集到的语料集,可以放到 huggingface 上,供他人下载。

第二,一些看法

1。两千多万的词库,这是什么概念。。。。搜狗的本地词库可能也就几百万。
你在课本上没有学过边际效应吗?

2。整句的输入场景(即一次性输入六个字以上),可能并没你想的这么多,大部分人还是分词输入,一次性输入 2-4字 。(我就不说原因了,自己想)

整句输入手机上可能更多一些。

想明白,你搞这些东西是给谁用的,是网络上占舆论优势的小众群体,还是沉默的大多数。

3。你就盯着搜狗输入法研究就行了,人家真金白银请专业人士开发的商业软件,吊打一切输入法。

我曾做过一点微小的输入法工作,给你一些建议

A。优化词库。

先明白一件事,一个输入法有两个词库,系统词库和用户词库,

200万真有些多了,精简一下,做好词和字频率,足够使用,没有的让用户自己输入

B。缝合一个中文语言模型到输入法里

不要自己去开发,做这个事的人多了去,缝合一个就行

C。如果有余力,放弃 rime ,拥抱苹果生态,利用 swiftUI 和 苹果提供的 api 从头构建一个输入法。

这个事在苹果生态里并不难,也有很多先例可供你参考。

下面是一个比较完整的例子

在 windows 上从头开发一个输入法就比较难了。

搜狗之所以强

第一点,它能够结合上下文用户词库动态去调频

第二点,它能根据已有的词组去组成更长的句子

第三点,它能利用网络扩展词汇,不需要数量夸张的词库,并且词频合理,新词热词不缺

第四点,它展示的候选词,是综合考量的结果,上下文分析,用户词频,是否组成整句,云词库

第五点,它有辅助码,可以辅助用户定位候选词,前面满足普通人,最后一个满足高手

https://pinyin.sogou.com/help.php?list=3&q=12

这是投入了很多人力优化的结果,个人很难搞出来

说一个我在读大学时的结论,形码靠人力,音码靠科技

说真的哥们,你从一开始折腾的方向就错了

如果你觉得搜狗输入可能会暴露隐私,这很好解决

禁用它的网络连接,让搜狗输入法无法向外发送数据即可

谷歌 “如何禁用应用连接网络” 会有教程

1 个赞