鸿雁输入法——整句输入法中一颗冉冉升起的新星

大神用心良苦啊

好东西

感激感恩

慢慢优化

一步一步来

理想与现实是存在差距的。

现代汉语词典有5万多个词条,您可以看到那本词典像砖头一样厚。

语料库分析采用的暴力穷举的方案,和结巴分词采用的语义学分析是不一样的。

2471万逐一检验的成本太高。

这个时候开启用户词典可以部分地减少废词的干扰。

我也知道会会现不少不当位置切割获得的“垃圾”词语。

这样有利也有弊。

可能最大的好处是,在整句输入的时候,准确率更高。

目前中文分词的技术,还比较落后,质量最好的结巴分词也会出现错误的分词。
语言分析的技术还没有发展到高度成熟的境界。

目前的办法是,成本比较低,技术上可行的方案。

机械分词确实会产生在语义分割上不合适的词语。

换一个角度看待问题,阿尔法狗没有学习人类棋谱,自我博弈到达一定次数后,打败天下无敌手。

或许,在人工智能,或者机器的眼里,这些不当的词语的存在反而是合理的。

我曾经天真的认为百度 必应的搜索引擎的关键字搜索结果数量可以从一定程度上量化表示一个词语的频率。

后来,实践告诉我,这个数值极其不准确。当时我的电脑抓取了三四次500万+的网页,流量有8TB。后来发现词频统计还得自己动手去统计,搜索引擎那个数据和真实的数据相差太多。

可能搜索引擎并不是使用的是全文搜索引擎,而是一种经过人工优化的中文分词算法。

词库增强包安装到什么位置合适?搞了几次没成功,是不是解压到D:\Program Files (x86)\Rime\weasel-4.0.0.0\data\build目录下?
如果失败了到话输入法就一直提示部署中无法使用,只好卸载重装

请大神讲一下安装配置
一头雾水

先卸载旧版本的鸿雁输入法 和小狼毫输入法

安装 鸿雁输入法4.0.exe 到c盘默认位置
安装 Windows版_鸿雁输入法v4.0预编译词库索引(拼音、五笔)_2471万词语增强包.exe

上面的增强包会自动重启算法服务,会把词库索引自动覆盖 到“C:\Users\你的用户名\AppData\Roaming\Rime\build”文件夹

接下来可以正常使用了

c盘位置才行啊?

增强包是 使用winrar制作的,使用winrar可以看到安装逻辑,有兴趣可以改动一下。

Path=%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build
能用绝对地址不 能该到安装目录 D:\Program Files (x86)\Rime\weasel-4.0.0.0\data\???

C:\Users\user>echo %SYSTEMDRIVE%
C:

C:\Users\user>echo %HOMEPATH%
\Users\user

按照大神的提示在
32位windows7电脑
傻瓜式安装

使用了一下

桂枝二越婢一
这样的中医学专业词汇也可以轻松打出来

确实非常不错

如何改我是不会啊 能不能改到d盘位置?求指教

输入法“中”图标点击右键后会看到
用户文件夹 和程序文件夹

用户文件夹在我的电脑里是 C:\Users\user\AppData\Roaming\Rime
程序文件夹在我的电脑里是 C:\Program Files (x86)\Rime\weasel-4.0.0.0

如果现在我把 用户文件夹里面的所有文件全部使用火绒强制删除,点击重新部署,是可以把 用户文件夹的文件重新生成的。

这个文件夹,是储存词库索引和最终输入法方案合成结果的。

增加包是覆盖的这个文件夹的索引。

程序文件夹是储存输入方案原始文件和输入法相关可执行文件的。

就算这个输入法安装在D盘,用户文件夹一般情况下仍然在C:\Users\你的用户名\AppData\Roaming\Rime

我到输入法用户文件夹是D:\Program Files (x86)\Rime\weasel-0.14.3\user
程序文件是D:\Program Files (x86)\Rime\weasel-4.0.0.0
如此位置安装就提示失败

增强包的安装脚本改为

Path=D:\Program Files (x86)\Rime\weasel-0.14.3\user\build

用最新版的winrar打开增强包,修改注释中上面的配置,保存。

image

鸿雁词库V4.0-飞燕伐檀版

赵飞燕体态轻盈,身轻如燕,传说中能作掌上舞,她是一位中国民间传说中最传奇和神话般的美女。

《伐檀》一诗,对那些尸位素餐的在位者进行了辛辣的嘲讽。

隆重发布鸿雁词库V4.0-飞燕伐檀版

为什么发布这一版?:因为使用之后,发觉楼主发布的原词库的字频词频不合理的地方太多,所以小鸡上树,勉力调整一下。

发布说明:

  1. 由于楼主不愿意对其词库调整词频,无可奈何之下,我将楼主之鸿雁词库V4.0词库(262万轻量级词库)词频调整后,姑且称之为“鸿雁词库V4.0-飞燕伐檀版”,发布出来,以期改善词库,请大家品鉴。
  2. 词频调整后,整个词库的可用性、实用性、词频合理性大大提高,或许提高10倍,基本上达到日常和工作环境可用的级别。但是本人能力有限,仅仅是用正则做了僵硬的调整,并且受原材料的器质局限,调整后的词频和字频仍不是最佳的。下面我会介绍调整的方法。期望方家更好地调整,造福论坛。如果楼主能出手改良原词库,那最好不过!
  3. 相对于楼主的原版,这里的飞燕伐檀版仅仅调整了词频和字频,词条没有删减。
  4. 鸿雁词库很有前途,期望楼主不断改进。

鸿雁词库V4.0-飞燕伐檀版的词频字频,相对于原版的调整示意如下:
image
具体来说,就是用 GitHub - rime/rime-pinyin-simp: 【袖珍簡化字拼音】輸入方案 的频率对鸿雁原词库频率进行改良。如果一个字或词在 袖珍简化拼音词库/输入方案存在,而且在鸿雁原词库存在,那就改变原鸿雁原词库中该字词的频率,改成两个频率相加;这其中的思路就是, 袖珍简化拼音词库是一个极小的词库,其中的字词都是高频的,在鸿雁输入法词库中,应该让同样的字词也高频。一看便知,这种调整是僵硬的,但本人能力有限,有心无力,只能这样了;但无论如何,调整后的效果非常好,频率合理性提高10倍,大大提高原词库的可用性。这样的调整,或许有什么副作用吧,目前出不看来,还未发现。

调整后的效果对比。原鸿雁原词库词频(长截图)VS飞燕伐檀版词频(短截图):

vj9lZT image vj91dU image vj93oF image

vj90eK image

vj9dL6 image
上面是和楼主发过的截图对比,下面的截图是飞燕伐檀版的截图,大家自行对比吧:

image image image image
image image
image

调整用到的的袖珍简化字拼音输入方案,可在这里下载,GitHub - rime/rime-pinyin-simp: 【袖珍簡化字拼音】輸入方案

这里也便民上传一下:pinyin_simp.dict.7z (403,8 KB)
另外,调整用到的鸿雁原词库:

hongyan_pinyin_simp.dict.7z.001 (15 MB)
hongyan_pinyin_simp.dict.7z.002 (5,9 MB)

最后,轻盈灵动的 鸿雁词库V4.0-飞燕伐檀版下载如下:

鸿雁词库V4.0-飞燕伐檀版hongyan_pinyin_simp.dict.7z.001 (15 MB)
鸿雁词库V4.0-飞燕伐檀版hongyan_pinyin_simp.dict.7z.002 (6,0 MB)

续上。再做以下更新。更新后的效果,就是把更多的常用词词频(相对非常用词,和怪词)再调高些,希望词库更好:

鸿雁词库V4.0-飞燕伐檀版V2-hongyan_pinyin_simp.dict.7z.002 (6,0 MB)
鸿雁词库V4.0-飞燕伐檀版V2-hongyan_pinyin_simp.dict.7z.001 (15 MB)

这次更新之后,更多词汇的词频更合理。楼主原词库和这次更新对比:

image image

1 个赞

安卓版的鸿雁输入法
仅五笔支持的比较好

全拼之类不满意
希望有机会可以改善优化

先别吹,让子弹飞一会。

先说一下自己的看法:

  1. 这种输入法的对象是谁,是普通群众么(那不需要这么多的词语和句子),是专业的文史工作者么(那应该收集一些专业词汇为主)

  2. 如果说是为了文史工作,那么您所言的整句输入,则应当以《二十四史》《十三经》等经典为主,词语以《汉语大词典》《辞源》以及各类专业词汇为主

大神的东西非常好。值得肯定。

大家可以群策群力帮助优化,多支持,多鼓励,不要让吃苦出力的人受委屈

,象小弟作为伸手党,一句话,感恩不尽。