更新慢一些是好事:
1、现有的非常好,已经用上几天,完全满足需求。
2、每次更新版本其实挺折腾浪费时间的,需要一通转换、重新部署、多电脑同步等,慢一些其实对用户来说是好事。
3、慢工出细活。
主要是增加了200多GB的语料库
现在语料库有350GB,我已经把速度优化到极致了
perl语言在脚本类型的高级语言中是最快的
如果perl速度不够
上go语言
go语言如果内存占用和速度跟不上语料库的增长
上c语言
c语言和汇编语言的速度也就差个5%
现在完整的词频数据刚刚出来,正在进一步加工,一个包含5亿词语词频的统计数据
这么大规模的语料库,如果要统计词语频率,排序,只能上c语言了,其他的基本上搞不定
一个文本文件1.9GB,一个亿的词语。加载到哈希表,并对词语的频率排序,需要20GB的内存。
如果用go语言,内存需求估计要增大一倍。
另外,有些网友对中文分词的语义上的准确度有强烈的癖好。
我找到了目前比较完整的中文分词数据
我不会引用这里面的数据,我只会用它们来投票。
大神劳苦功高
辛苦了
辛苦辛苦,牛逼普拉斯啊
全力支持
静候佳音
刚刚测试了50万的英文码表
我发现小狼毫输入法对英文并不友好
如果需要支持英文输入,还需要从底层改进引擎
比如说 如何 输入 sometime之后如何让 some等单词不显示
如果输入一个错误的单词如何让这个单词不显示并给出提示。
目前rime输入法在纯中文的输入下表现上佳。
英文输入法已经有非常强大的方案
这个词语联想功能才是你想要的。
谢谢大神!不着急,静候佳音!
这牛逼啊靠,是独立输入法不是rime方案啊。楼主是想把这功能全部加入rime方案么????
已有的Rime 英文方案如下,虽然比不上 Hi英文输入法,但胜在可以整合入RIME,且词库等自定义:
我自己是将 rime-easy-en 整合到小鹤双拼中,词库则是自制的高频词汇,效果如下:
如果使用Vim,则推荐直接使用韦神的 vim-auto-popmenu ,不需要任何输入法相关支持,vim直接就可以达到如下效果:
上楼的两个rime英文输入法都是基于lua插件实现,这已经相当于把功能转移到另一个语言了
rime输入法存在一个缺陷
假如英文单词存在一个ng
中英文混合输入的时候 ng 输入 “那个”这些候选词就会被屏蔽。
英文输入还是得采用专业的输入法方案
不用lua也能满足基本诉求,我就没有使用lua
hongyan30大师你好!
不知咋回事,昨晚汉语整句输入再次消失!
目前只能重新安装吗?
非常喜欢这个鸿雁输入法!
卸载,重装。
这可能是系统的输入法配置冲突导致的
TSFTool V0.9.2.8 输入法设置工具
TSFTool 是 IMETool 输入法设置工具的继承者,支持在 Windows 10/11/Windows Server 2019 操作系统下,支持新的 TSF 输入法框架,并部分兼容旧的 IMM 输入法框架。
这款软件应该可以解决这个问题。
删除不相干的输入法和注册表残留项
不好意思,忘记说了,本人指的是安卓系统。
重新用一个多G的rime覆盖也可以用了。
谢谢!
边用边熟悉——安卓版现在也会换skin了!
谢谢楼主大神的好输入法!
——期待更加完美——更加期待英文联想输入!
实话告诉您,我不打算加入英文。
不过1000万的文艺版(分词加强版)做出来了。目前在做整句输入横向评测。黑马神拼、谷歌输入法、搜狗输入法、百度输入法、讯飞输入法。
这回词库量最大的增强版词语数量最大接近3000万。并且语料库的质量进一步提高,微博语料库的权重大大下降,次哭 不再排第一,词库排第一。
其实我那50万的中英文简明翻译词库可以加入码表,不过存在版权问题。做一个本地化的词典软件还马马虎虎。如果增加到输入法,并且使用的人很多,就面临法律问题。
我对c++的造诣还处于入门状态。
目前的rime英文输入法,要么依赖lua插件,要么依赖英语分词组件。
要做出像hi英文输入法这么强大的英文联想功能,恐怕就算是天才也需要2个星期。
目前rime做一个功能比较完善的英文输入法,无论是从时间成本还是预期回报的角度,并不可取。
还是让专业的软件去做专业的事。
除非有足够的人手,足够的社区驱动,这些都是小菜一碟。
那也就是说,英文输入仍然如现在一样,一个一个的英文字母输入?
记得李敖死前就想做一个类似于这样的一个项目,惜乎李氏年寿不永,看到这个项目,感到很欣喜。
记得李敖的方案里也有像楼主里的这样,广泛搜索的,丰富语料库的部分,不过李氏的方案好像在搜索语料库后,还有成立作家委员会,集体优化的部分,楼主可以参考一下李氏的方案,如果裨有所成,将对中华文化发功甚多。
要做一个勉强可用的英文输入法也不是不可以
sometime some 200
sometime somet 250
sometime someti 300
sometime sometim 350
sometime sometime 400
或者
sometime s o m e t i m e 200
这样和纯字母输入相比
多按了一次空格
不能纠正错误的拼写
这样的输入体验,并不是非常好的。只有从源代码中更改引擎