鸿雁输入法——整句输入法中一颗冉冉升起的新星

采用其他词库,我以前有这样的想法,因为词频数据不准确 错误的分词也不少而放弃了
而且有的数据库明令禁止商用,或者授权协议比较苛刻。

现在想想,别人花费大量 人工的分词数据也不是一定没有价值。

我不直接引用这些数据,用他们来投票。

天下文章一大抄,抄抄改改,是可以的。

如果引用一本著作几句话,不构成侵权。

成段成段地引用,而且没有授权协议,构成侵权。

大神
原创的价值
毋庸置疑

相信自己

坚持自己的道路

请问作者什么时候支持 mac 呢?有这个计划吗

好像使用ma c平台主要是
视频剪辑,设计等专业人员
部分的软件工程师,ios开发者

我都没用过这个操作系统,应该和linux差不多,据说mac系统最初是在bsd unix上开发的。

从市场份额上说,这个一个小众的操作系统
从用户群体角度来说,这个高端的用户群。

其实吧,鸿雁输入法主要是一个码表方案,rime源代码就改动了一个整句引擎下的空格键映射。

这些移植起来并不困难。

能用得起mac的用户自然也会接触windows平台

linux用户也有这样的需求,一个词库安装 脚本

目前在windows平台将就先用一下吧。

用户数量足够多了,加上是开源的,自然有喜欢折腾的爱好者做出移植打包方案来。

可以直接使用RIME的mac版 + 鸿雁的词库/方案。

怎么没动静了?

应该是楼主大神正在潜心伏案制作吧!
期待更新版 (最好有英文联想功能) 横空出世!

好饭不怕晚

一如既往
支持大神

更新慢一些是好事:
1、现有的非常好,已经用上几天,完全满足需求。
2、每次更新版本其实挺折腾浪费时间的,需要一通转换、重新部署、多电脑同步等,慢一些其实对用户来说是好事。
3、慢工出细活。

主要是增加了200多GB的语料库

现在语料库有350GB,我已经把速度优化到极致了
perl语言在脚本类型的高级语言中是最快的
如果perl速度不够
上go语言
go语言如果内存占用和速度跟不上语料库的增长
上c语言
c语言和汇编语言的速度也就差个5%

20220923094623

现在完整的词频数据刚刚出来,正在进一步加工,一个包含5亿词语词频的统计数据

这么大规模的语料库,如果要统计词语频率,排序,只能上c语言了,其他的基本上搞不定

一个文本文件1.9GB,一个亿的词语。加载到哈希表,并对词语的频率排序,需要20GB的内存。

如果用go语言,内存需求估计要增大一倍。

1 Like

另外,有些网友对中文分词的语义上的准确度有强烈的癖好。

我找到了目前比较完整的中文分词数据
我不会引用这里面的数据,我只会用它们来投票。

2 Likes

大神劳苦功高

辛苦了

辛苦辛苦,牛逼普拉斯啊

全力支持

静候佳音

刚刚测试了50万的英文码表

我发现小狼毫输入法对英文并不友好

如果需要支持英文输入,还需要从底层改进引擎

比如说 如何 输入 sometime之后如何让 some等单词不显示

如果输入一个错误的单词如何让这个单词不显示并给出提示。

目前rime输入法在纯中文的输入下表现上佳。

英文输入法已经有非常强大的方案

Hi英文输入法

hibackgroudSnapShot

这个词语联想功能才是你想要的。

1 Like

谢谢大神!不着急,静候佳音!

这牛逼啊靠,是独立输入法不是rime方案啊。楼主是想把这功能全部加入rime方案么????

已有的Rime 英文方案如下,虽然比不上 Hi英文输入法,但胜在可以整合入RIME,且词库等自定义:

  1. shewer/rime-english

computer

  1. BlindingDark/rime-easy-en

continuous-input-enhancement

我自己是将 rime-easy-en 整合到小鹤双拼中,词库则是自制的高频词汇,效果如下:

image

如果使用Vim,则推荐直接使用韦神的 vim-auto-popmenu ,不需要任何输入法相关支持,vim直接就可以达到如下效果:

pop

上楼的两个rime英文输入法都是基于lua插件实现,这已经相当于把功能转移到另一个语言了

rime输入法存在一个缺陷

假如英文单词存在一个ng

中英文混合输入的时候 ng 输入 “那个”这些候选词就会被屏蔽。

英文输入还是得采用专业的输入法方案

不用lua也能满足基本诉求,我就没有使用lua