鸿雁输入法——整句输入法中一颗冉冉升起的新星

更新慢一些是好事:
1、现有的非常好,已经用上几天,完全满足需求。
2、每次更新版本其实挺折腾浪费时间的,需要一通转换、重新部署、多电脑同步等,慢一些其实对用户来说是好事。
3、慢工出细活。

主要是增加了200多GB的语料库

现在语料库有350GB,我已经把速度优化到极致了
perl语言在脚本类型的高级语言中是最快的
如果perl速度不够
上go语言
go语言如果内存占用和速度跟不上语料库的增长
上c语言
c语言和汇编语言的速度也就差个5%

20220923094623

现在完整的词频数据刚刚出来,正在进一步加工,一个包含5亿词语词频的统计数据

这么大规模的语料库,如果要统计词语频率,排序,只能上c语言了,其他的基本上搞不定

一个文本文件1.9GB,一个亿的词语。加载到哈希表,并对词语的频率排序,需要20GB的内存。

如果用go语言,内存需求估计要增大一倍。

1 个赞

另外,有些网友对中文分词的语义上的准确度有强烈的癖好。

我找到了目前比较完整的中文分词数据
我不会引用这里面的数据,我只会用它们来投票。

2 个赞

大神劳苦功高

辛苦了

辛苦辛苦,牛逼普拉斯啊

全力支持

静候佳音

刚刚测试了50万的英文码表

我发现小狼毫输入法对英文并不友好

如果需要支持英文输入,还需要从底层改进引擎

比如说 如何 输入 sometime之后如何让 some等单词不显示

如果输入一个错误的单词如何让这个单词不显示并给出提示。

目前rime输入法在纯中文的输入下表现上佳。

英文输入法已经有非常强大的方案

Hi英文输入法

hibackgroudSnapShot

这个词语联想功能才是你想要的。

2 个赞

谢谢大神!不着急,静候佳音!

这牛逼啊靠,是独立输入法不是rime方案啊。楼主是想把这功能全部加入rime方案么????

已有的Rime 英文方案如下,虽然比不上 Hi英文输入法,但胜在可以整合入RIME,且词库等自定义:

  1. shewer/rime-english

computer

  1. BlindingDark/rime-easy-en

continuous-input-enhancement

我自己是将 rime-easy-en 整合到小鹤双拼中,词库则是自制的高频词汇,效果如下:

image

如果使用Vim,则推荐直接使用韦神的 vim-auto-popmenu ,不需要任何输入法相关支持,vim直接就可以达到如下效果:

pop

上楼的两个rime英文输入法都是基于lua插件实现,这已经相当于把功能转移到另一个语言了

rime输入法存在一个缺陷

假如英文单词存在一个ng

中英文混合输入的时候 ng 输入 “那个”这些候选词就会被屏蔽。

英文输入还是得采用专业的输入法方案

不用lua也能满足基本诉求,我就没有使用lua

hongyan30大师你好!
不知咋回事,昨晚汉语整句输入再次消失!
目前只能重新安装吗?
非常喜欢这个鸿雁输入法!

卸载,重装。
这可能是系统的输入法配置冲突导致的

TSFTool V0.9.2.8 输入法设置工具

TSFTool 是 IMETool 输入法设置工具的继承者,支持在 Windows 10/11/Windows Server 2019 操作系统下,支持新的 TSF 输入法框架,并部分兼容旧的 IMM 输入法框架。

下载:tsftool.rar

这款软件应该可以解决这个问题。

删除不相干的输入法和注册表残留项

不好意思,忘记说了,本人指的是安卓系统。
重新用一个多G的rime覆盖也可以用了。
谢谢!

边用边熟悉——安卓版现在也会换skin了!
谢谢楼主大神的好输入法!
——期待更加完美——更加期待英文联想输入!

实话告诉您,我不打算加入英文。
不过1000万的文艺版(分词加强版)做出来了。目前在做整句输入横向评测。黑马神拼、谷歌输入法、搜狗输入法、百度输入法、讯飞输入法。

这回词库量最大的增强版词语数量最大接近3000万。并且语料库的质量进一步提高,微博语料库的权重大大下降,次哭 不再排第一,词库排第一。

其实我那50万的中英文简明翻译词库可以加入码表,不过存在版权问题。做一个本地化的词典软件还马马虎虎。如果增加到输入法,并且使用的人很多,就面临法律问题。

我对c++的造诣还处于入门状态。
目前的rime英文输入法,要么依赖lua插件,要么依赖英语分词组件。
要做出像hi英文输入法这么强大的英文联想功能,恐怕就算是天才也需要2个星期。
目前rime做一个功能比较完善的英文输入法,无论是从时间成本还是预期回报的角度,并不可取。
还是让专业的软件去做专业的事。

除非有足够的人手,足够的社区驱动,这些都是小菜一碟。

那也就是说,英文输入仍然如现在一样,一个一个的英文字母输入?

记得李敖死前就想做一个类似于这样的一个项目,惜乎李氏年寿不永,看到这个项目,感到很欣喜。

记得李敖的方案里也有像楼主里的这样,广泛搜索的,丰富语料库的部分,不过李氏的方案好像在搜索语料库后,还有成立作家委员会,集体优化的部分,楼主可以参考一下李氏的方案,如果裨有所成,将对中华文化发功甚多。

@hongyan30

1 个赞

要做一个勉强可用的英文输入法也不是不可以
sometime some 200
sometime somet 250
sometime someti 300
sometime sometim 350
sometime sometime 400
或者
sometime s o m e t i m e 200

这样和纯字母输入相比
多按了一次空格
不能纠正错误的拼写

这样的输入体验,并不是非常好的。只有从源代码中更改引擎