鸿雁输入法——整句输入法中一颗冉冉升起的新星

好的,谢谢分享!!我研究下试试

我在Windows 10下使用RIME + 这个hongyan词库,“重新部署”总是失败,直至舍弃weight在0-199之间的所有词汇才重新部署成功。

请教:RIME重新部署对词库要求的极限是什么? PS:我的电脑内存是32G,但在重新部署时,我看“任务管理器/性能”中的内存占用基本没什么变化,仅仅是CPU有略微上升,但也只有30%左右。

PS:我将hongyan词库分组如下,其中base是单字,phrase是词组;prhrase又再根据weight排序进行分组:99以下、199以下、499以下、999以下、1000、1999以下、3999以下、9999以下、五位数、六位数。

我的词库组合如下:

以下是舍弃0-199的hongyan词组后,"重新部署"输出的文件大小:

windows平台小狼毫输入法对于单个词库的数据量上限是300万左右,不到400万。

如果你选择一个输入法方案,同时这个输入方案制定一个码表,这个码表又引用其他的词库码表。

如果引用的数据量加起来超过 300多万,那么同样无法生成索引。

本来鸿雁词库数据量就接近极限,在加上其他的词库,当然编译失败了。

虽然你在配置文件是引用这个词库,但是所有的引用的词库都会合并到当前的码表下的。

可采取的解决方案是,你采用多个输入方案。

比如你自己的个人码表做一个输入法方案。数据量不超过300多万。

输入法方案选择的时候同时鸿雁全拼和 你的输入方案都勾选就可以了。

编译词库索引需要32GB的内存。 指的是在linux平台编译需要的内存,这里的词库容量是2471万,实际上最大的内存占用约为22GB。

在windows平台,鸿雁输入法轻量版的数据量已经逼近极限了。轻量版,就是在计算windows平台单个码表可以生成词库 数量的上限得来的称号。

1 Like

以下是从上述词库中提取的weight最高的词汇(weight在6位数以上),已按weight倒序排列。

hongyan.phrase666666.dict.zip (500.9 KB)

看了一下,其中机械分词的痕迹比较明显。对于此类最高频的词汇,是否有优化的空间?

本来分词的时候就是采取暴力穷举的机械分词算法,这个速度远远超过其他的分词软件。
结巴分词速度大概在11MB/s
机械分词可以超过17MB/s

这个词库是鸿雁的2471万的机械分词的高频词与主要是腾讯分词tencent-ailab-embedding 1019万词语的交集。

另外还包括

facebook fastText 中文向量 15万
北京师范大学开源中文词向量 87万

错误的词语来源来源于这些词库列表,这些已经是开源的使用深度学习技术分词数据中最好的了。

只能说目前的深度学习技术还没到达非常完备的境界。

1 Like

9月17日更新版5.0安装成功后,选择拼音、双拼正常;但选择“鸿雁拼音+腾讯词库测试版·全拼”后就一直是维护中,多次卸载安装都是如此。
发现“hongyan_pinyin_simp_tengxun.table.bin”这个文件内容是空白。
估计预编译方式可行 :smiling_face:

请教上述词表是否已经包含 清华大学开源词库 THUOCL?

若已包含,我就不必再重复了。

这个词库是几个本科生和博士生做的,指导老师是教授。

质量一般。

在国内汉语学术研究比较厉害的有 北京师范大学 北京语言大学 哈尔滨工业大学。

1 Like

您应该是内存不够
在win 10平台是可以正常编译词库索引的。

这里有预编译好的词库索引提供下载。

明白了!感谢!我最终采取的方案如下,供各位参考。
主要改动:(1)hongyan分单字和词组,以便多输入法组合使用;(2)删除hongyan词频在300以下的低频词组,以便在windows下腾出一些空间给其他自定义词组。

---
name: vimwei
version: "2022.09.18"
sort: by_weight
import_tables:
  # 基础词表
  - hongyan.base   # 仅单字
  - hongyan.phrase  # 词频在300以上的词组
  - sogou.new.words  # 流行的新词库,定期自动更新
  # 个性化词库
  - vimwei.inbox
  - vimwei.contacts
  - vimwei.finance
  - vimwei.group
...

替换后,瞬间就恢复为原样了 :joy:

谁能教教我这个输入法怎么用?装上之后就一个图标,也没有状态条,只能输入英文,没法切换到中文。

windows版

1 先卸载旧版本的鸿雁输入法和小狼毫输入法
2 安装vc 2015运行库,目前不支持win 11,在win 7 32bit、win 7 64bit、win 10 64bit均可正常运行。
3 安装 鸿雁输入法5.0.exe 到c盘默认位置
4 安装 Windows版_鸿雁输入法v5.0预编译词库索引(拼音、五笔)_2471万词语增强包.exe
5 部分电脑需要重启操作系统才能正常使用

鸿雁输入法默认的输入方案是“鸿雁拼音·全拼”,习惯使用整句输入模式的用户,完成上面的5个步骤就可以正常使用了

对于习惯使用词语作为输入单元的用户,请跳过步骤4(这个增强包用于整句输入的),进行下面的设置

a. 右键点击任务栏“中”字图标,弹出菜单
b. 点击 “输入法设定”
c. 在输入法菜单中,取消“鸿雁拼音·全拼”前面的复选框,把“鸿雁拼音+腾讯词库测试版·全拼”的复选框选中
d. 点击确定,生成“鸿雁拼音+腾讯词库测试版·全拼”的词库索引

“鸿雁拼音+腾讯词库测试版·全拼”使用空格键和数字键上屏,没有使用语句流引擎,候选词语更为准确,更接近语义学上的合格词语

安卓版 需要安装3次

1 鸿雁手机输入法5.0.apk
2 鸿雁手机输入法5.0配置包(解压到手机rime目录即可).zip
3 Android版_鸿雁输入法v5.0预编译词库索引(拼音、五笔)_2471万词语增强包.zip

上述每一个步骤的作用

1 安装基本的软件
2 用最小的输入法词库生成索引
3 替换词库索引

安装过程有点繁琐。没有状态条,没法调用软键盘。不喜欢竖排选字,不能设置字体样式。

你说的这些属于高级功能,都可以自行学习定制,几个配置参数就搞定了。

1 Like

是我疏忽了,覆盖索引前应该停止鸿雁拼音算法服务后台

这个是自解压包,会自动安装词库索引的,停止算法后台,重启算法后台,不需要手动复制

小狼毫助手可以在图形化的界面设置这些参数。

请教:目前“hongyan_pinyin_simp_tengxun.schema.yaml”中默认是express_editor,也就是默认是词语模式而非整句模式?

是的

整句模式下数字键不能直接上屏

这对于习惯使用拆分语句为词语为输入习惯的用户更为方便。

这个方案的弊端就是,整句输入准确率降低。

1 Like

多谢支持:grin::pray:t2:
以上问题基本解决了,已经很不错了~
期待能够改进的地方:
1、词库词频顺序随着用户的手动选择能够自动调节;
2、双拼方案中,通过“;'”,也就是分号和单引号选择第二、第三候选词;(这里有示例:https://gist.github.com/lotem/2390510)
3、预编译方案最好能直接加入安装包中,直接释放。
这一段中有“词库”“预编译”需要手动选择!