鸿雁输入法——整句输入法中一颗冉冉升起的新星

yikelee · 2022 年9 月 29 日 13:45

其实一个个字母打也挺好的，我汉语也是一个字一个字打的，节奏一致。

Vim · 2022 年9 月 29 日 13:53

我没用过安卓系统，一直IOS

brightd · 2022 年9 月 30 日 01:10

有道理！青菜萝卜各有所好！

Vim · 2022 年9 月 30 日 01:43

使用英文的词库，更多是为了排查错误，特别是字母比较多的词汇，如果在输入过程中不再有相关的提示，那么大概率是输入有误。

老门2019 · 2022 年9 月 30 日 03:30

请教一下这个输入法貌似不能根据用户输入习惯自动调整词频？或者我没有设置对？
比如，我打rencai 默认人才是首选，其他输入法当我选 “人财”多次后 “人财“就排首位。

ad困困 · 2022 年9 月 30 日 05:49

再某某qq群里有人发了个版本的小狼嚎你看看这是什么版本的，有没有什么特别改进

hongyan30 · 2022 年9 月 30 日 06:18

该输入法有多个输入方案

默认的鸿雁拼音是没有开启用户词典的，开启用户词典输入法内有详细的说明文档

另外鸿雁拼音腾迅测试版·全拼默认是开启用户词典的

hongyan30 · 2022 年9 月 30 日 06:20

主要是UI的改进

现在最急需的是对win 11的稳定支持

ad困困 · 2022 年10 月 1 日 02:09

11支持的如何？那你用这个版本搞吧

南故笙烟 · 2022 年10 月 10 日 10:05

如果有个双拼纠错的功能就好了

老门2019 · 2022 年10 月 13 日 02:25

请问手机版在哪儿下载，貌似网盘里面的内容发生了变化，或者就是我没找着最初的下载链接

hongyan30 · 2022 年10 月 13 日 02:28

你要下载这些文件

Android版_鸿雁输入法v6.0.PART1.rar

Android版_鸿雁输入法v6.0.PART2.rar

Android版_鸿雁输入法v6.0.PART3.rar

Android版_鸿雁输入法v6.0.PART4.rar

Android版_鸿雁输入法v6.0.PART5.rar

老门2019 · 2022 年10 月 13 日 02:34

不好意思老眼昏花。改分卷压缩了，我就说和开始网盘里面不太一样了

南故笙烟 · 2022 年10 月 22 日 02:41

我也遇到了这个问题

G8tVRaREgbTrUy9xLnhX · 2022 年12 月 4 日 05:24

我把你这个输入法安装后使用了差不多一个月了，现在谈一下我的感受。总体上这个输入法已经能用了，但是它还是有不少问题。最重要的一个问题，就是不少情况下排序完全不是按照字或者词是否常用出现的，我列出几个楼主可以测试一下。
ya
birupailiediyideshi
babaiwangexiangliangshuju
yidingyaozuodaojizhiyouhua
buhuiyilourenheyigekenengdecihui
tadefenci
yigeduoweikongjiandexiangliang
lizi
等等等等，这种例子太多了，希望能继续优化一下。谢谢啦！

hongyan30 · 2022 年12 月 4 日 08:08

这个输入法是这样的，统计1-16个字的词语词频，套用小狼毫输入法的的引擎，输入法层面基本上没有算法上的改进。

我的思路是企图使用暴力空间穷举的方法选出高频词语

以搜狗输入法为代表采取的方法是马尔可夫链模型
输入一段拼音后，前两个字的组合决定者第三个字的组合。
如果这段拼音有八九个字十几个字，再用动态规划，获取所有可能路径中的最优值
在选取策略中涉及到一个三元组

曾经，搜狗输入法为了百度输入法是否窃取搜狗的三元组打官司。还要查看百度输入法的源代码。
可能呢，百度确实借鉴了，只不过换成词组的方式储存。这个官司搜狗输了。
抄一抄，改一改，这个不叫抄袭，叫借鉴。

以百度工程师的实力，逆向获得搜狗输入法底层原始数据，分分钟钟的事。我也见识过百度这样的人才。要不是更快更好的刷个kpi,人家懒得逆向搜狗输入法的底层数据呢。

这么好的马尔可夫链，三元组，鸿雁输入法目前没有采用。我这边采取的是最粗暴简单的方法。
350GB的语料获得的机械分词有5.14亿多个，按照目前我电脑32GB内存，最多只能给2000多万词语生成词库索引，还有差不多4.94亿个词组是没有收录的。当然这里面的废词占绝大部分。

最近，我在砸锅卖铁解决这个问题。写了一个利用信息论原理分词的工具。
本来用golang实现的，单线程处理1GB语料需要2小时，算下来350GB语料要29天才能分析完成。

上阿里云大概要2000多块，
到网吧包下几十台电脑，需要4000多块。
本来还想求助freemdict的网友给我众筹，分布式运算，我出电费。

后来，作罢。还是我的老爷机慢慢跑吧。

接下来，尝试使用c++优化，一切数据全部放在内存里操作，优化编译，使用最强最快的代码库，单线程处理1GB语料需要25-40分钟，还可以2-3个线程并发，整体速度提高了7倍。

如果把分词成果放入输入法，应该可以提高分词准确率

你提到的ya候选词语

目前单字分词结果
按照字频统计排序

亚	13793256
压	8395987
呀	5624108
雅	5332774
牙	5021954

按照分词打分排序

亚	42.18128983
牙	36.99215016
压	36.70474922
雅	35.57282914
呀	26.57306436

所以亚压排在前面是严格按照字频统计结果的

这个时候，自动分词还是分辨不出单字的词语，只能人工干预了，利用已有的高质量预先的人工分词数据，强行把这些词提到前面应该就可以了。

aimdict · 2022 年12 月 4 日 12:33

你这思路就有问题。不要以为语料越多越好，没有太大关系。弄了350G的语料，结果连最基本的句子都输不对。

hongyan30 · 2022 年12 月 4 日 13:32

一般的学术界的观点是语料库越大越好，根据概率论大数定律，随着抽样的数量增加，随机变量越来越趋于概率上的稳定值。

目前国内研究汉语规律最先进的北京大学相关机构，也是依赖大量的人工编纂工作。

搜狗输入法采用的马尔可夫链加动态规划加人工干预，也不能解决所有汉语准确输入的问题，也会出现错误。

大量的人工编纂和人工干预对于开发者来说是不可承受的。

依赖机械化自动化分析提高输入法词库数量和质量，虽然不能代替人工劳动，最起码可以解决一部分新词录入问题。

达到一个目标，道路是曲折的。

Quantus · 2022 年12 月 4 日 13:55

我觉得打五笔就挺好的了，一个不足300KB大小的文本文件构成的码表就可以应付日常生活中的所有输入问题了，而且全拼再怎么“智能”，其输入速度也不可能比一个熟练的五笔使用者快。其它的形码或者音形码输入法类似。

当然，你所做的这些研究肯定的是用的，我只针对输入效率方面来说。

G8tVRaREgbTrUy9xLnhX · 2022 年12 月 5 日 08:46

你这个程序运行中能中断然后再继续运行吗？我这个计算机120G内存可以帮你运行一下，但是不能持续运行，因为有时候我工作要用。所以如果你的程序可以pause resume的话我就能帮你运行一下也许能快一点。