鸿雁输入法——整句输入法中一颗冉冉升起的新星

多次按空格键是我为群里某人问的,数字建上屏可以啊,候选框等字词可以数字键上屏,最初的版本不能

如果卸载老版本了,算法后台自动退出。
在我这里卸载老版本,不按照输入法的建议,不重启系统。
安装新版本,不重启也能正常运行新版本。

这主要是小狼毫输入法算法后台有没有启动,有没有加载词库索引的缘故。

这是折衷设置,为了支持整句输入。
小狼毫输入法有两个引擎
这里打开了语句流输入方式,在语句流模式下,空格断词,回车上词。
所以,在配置文件里把 fluency_editor(语句流)改回 express_editor(普通模式),既可恢复正常的空格上中文词组。
要想数字直接上屏也不是不可以,整句输入就不支持了。
C:\Program Files (x86)\Rime\weasel-5.0.0.0\data\hongyan_pinyin_simp.schema.yaml
文件中
engine:
processors:
目录下

- fluency_editor改成 - express_editor就可以了,注意空格不能用全角空格和TAB字符代替
修改并且保存文件后,点击重新部署就生效了。

部署以后windows词库的索引会缩小到262万,安卓平台基本的输入法方案只包含单字,索引会更小。
这个时候需要把2471万词语增强包重新安装一遍。

鸿雁输入法更改了rime输入法的源代码,取消了语句流模式下空格键的的断词功能,空格键改为上屏键。
不过保留数字键不能直接上屏的设计,这是为了方便整句输入的时候,使用Tab键和退格键盘选择词语的时,词语还保留在候选框。

如果用户更习惯词语为单元输入,需要数字键直接上屏,可以按照上面给出的方法修改配置。

1 个赞

看了一下,作者做的工作很有意义
不过感觉现在是开了个头
后面应该还有很多需要优化的工作
目前非常明显的几个亟需改进的缺陷是:
– 没有必要的赘余多音字词,一个句子如果有多个多音字,定会产生占比巨大的冗余信息,可能对词频也有显著影响
– 可能不够完善的统计模型,楼主的语料库之丰富,我想只有一些公司才能匹敌,如此规模,可能分析下来耗时长久,只能选择简单、速度快的统计模型处理,前几层“词库”“次哭”之类的现象应当是不完善处理之下的产物,希望能有所优化
– 由于太大,所以不够纯净,两字词出现的候选达到几十,让人望而生畏,势必敢于试用的人就稀缺,说起来应该也是完善统计模型后的一个目标

个人精力有限。

次哭
可以看作 第一次哭 第二次哭

这些词语的分割产生的。

这样的句子应该在微博比较常见。

为了获得更为全面的词汇只能机械分词。

目前缺乏人工校验,又没有非常成熟的中文分词软件,只能这样。

如果要做出更为完美的输入法,需要更多的人力。目前只能做到这个地步。

感谢解答
能否考虑拿掉微博语料库,不规范的表达太多了
wb的用户大多比较年轻活泼,话语风格变化得也很快
相对而言,你提供的其他几个语料库更规范、稳定,wb可能会将其污染

对的 去掉微博资料

赞同,我看了词频文件,发现词频排前几位的微博化很明显,建议楼主去掉微博

1 个赞

经典的
四书五经
四大名著
科学医学
中医
本草
古汉语的
不嫌多

微博一定去掉
是污染
毒瘤

古文资料的情况复杂一点,资料少了对结果没啥改变,资料多了会影响正常输入,毕竟咱们日常绝大部分情况还是用白话文,倒是可以做个可选项,像搜狗的词库那种概念


对的
实用第一


不愧是辞典资深玩家啊。

微博中 “次哭” 是其他语料库词频的四倍。这个词在最新出版的书籍里也是普遍的。

至于你提到的微博词汇规范性权威性的质疑,是有一定道理的。

本输入法的高频词汇是通过区块数量投票得出的,不规范的怪词会通过区块数和频率的筛选出来的。

像 “高富帅” “白富美” “火钳刘明” “不明觉厉” “十动然拒” “人艰不拆”这些固定成型的流行语被收集

“针不戳” “然并卵” “ 绝绝子”这些流行语却没有被收集。

基于区块投票、词频排序的方法是相对可靠的。

输入法使用的大部分场景是聊天摸鱼。

没有微博这个口语化的语料库,到哪里去找最新最全的口语素材。

我的建议是,做成更新包。根据搜狗的使用体验,他的流行语是需要联网才会更新,换句话说,所谓的最新、流行是动态的,今天流行,可能明天就不流行了,所以可以隔一段时间选择最新的微博语料更新一次,而不是全部微博语料

这个周期应该是以半年 一年 为单位

可以的,期待您的实验数据

万分期待

使用发现5。0版本比上个版本更加流畅易用

就问你能不能搞个本站专用版吧……
毕竟本站的用户,遣词造句的水平远比站外人士高呢
一提去掉这微博语料大家都比较赞同,这就是群众的呼声了


四库全书
四部丛刊
古今图书集成
殆知阁
易经
中医
本草

都集成进去

可以满足本坛人士
做学问的需要

强烈支持推出本论坛专属版词库

殆知阁其实已经分好类了,楼主的主体数据库去掉微博后保持不变,其他的就做成一个个单独的词库,按需加载就可以了,比如流行语,古文,中医,诗词啥的

英雄所见略同

无比兴奋
无比幸福