鸿雁输入法——整句输入法中一颗冉冉升起的新星

hongyan30 · 2022 年9 月 12 日 06:15

鸿雁输入法经过重大升级，在整句输入上做到物理上的极致优化。

首先是语料库的升级。目前的语料库有150GB，包含702亿个字符，有效汉字字符380亿个。

其中：
epubee整站电子书5.3万本，65.6GB
全网能找到的所有微博语料，38.6GB
百度百科500多万条，15.6GB
中文维基百科全部条目，10.1GB
各类新闻语料，12.6GB
微信公众号语料，2.9GB
联合国平行语料库中文部分，1.4GB
1946年-2003年人民日报全部数据纯文本，3.1GB

腾讯的自然语言处理研究开源了一个大规模中文词向量: 提供在300亿词的语料上训练的、包含8百万词汇的中文词向量数据，向量维度为200维。

以腾讯的大规模中文词向量作为比较：

腾讯的大规模中文词向量是在300亿词的语料上训练的；鸿雁输入法的语料包含702亿个字符，有效汉字字符380亿个。
腾讯的大规模中文词向量包含8百万词汇(最新版是1200万)；鸿雁输入法包含的词汇量是2471万，而且这个数量刚好位于有序与无序的临界点。也就是超过2471万的词汇量对词语的质量没有太大提升，反而会浪费储存空间。
腾讯的大规模中文词向量依赖于结巴分词这样的分词软件，会出现分词不完全的情况；鸿雁输入法的分词采用的是机械分词，不会遗漏任何一个可能的词汇，并且从2-16个长度的词语全部进行统计。
腾讯的大规模中文词向量语料如果猜测的没错的话，主要是来源于网页抓取；鸿雁输入法同样大部分也是来源于网页抓取，不过数量更加庞大，选择的语料库是经过精心挑选的，具备典型性。

腾讯的大规模中文词向量底层采用word2vec技术，将分析的词语赋予一个多维空间的向量，依据向量的空间距离可以获得不同词语的相似度；

近距离语义分析，只有在切换输入法的情景才会有效，腾讯的语料库嵌入数据集，1200万的词条解压后，100维的版本有12GB，200维的版本有22GB，占用空间太大。而且需要相对复杂的余弦相似度运算。
如果要把腾讯的大规模中文词向量用于输入法，还需要调整算法，对一个已知词语的前面和后面的词语进行关联概率统计，概率模型是马尔可夫链。

鸿雁输入法基于词频统计的最大概率排序，同样可以对千万级的词汇进行统计。如果把2-4个字的词语前后组合排列，就构成一个更大的词语。在不考虑中文语法规则得情况下，把一个句子当作一个词语，和词语一样，按照语料库的出现概率大小进行排序，同样可以实现整句输入的效果。只要保证足够大、足够全面的语料样本，语句按照词语分割后，按照所有分词组合对应的概率排序，就可以获得质量相当高的整句输入法。鸿雁输入法在语料库分析的时候，最大的词语长度是16，这个长度已经足以覆盖绝大部分中文语句的使用场合。

下图是不同长度的词语出现的数量横向对比图

根据上图可以看出，中文词语在超过8个字的长度，比例大幅减少。中文词语的长度主要集中在2-6个字。

在对702亿个字符的语料库统计后，获得70亿个词语的数据，约为63GB。

下面就面临一个高频词语的选择问题。

一个输入法包含70亿个数据，显然这个数据过于庞大。

如果选择的高频词语数量过少，那么输入法的词语准确率就会偏低。
如果选择的高频词语数量太大，因为各种原因产生的错误的词语就会增多。

选择高频词，需要兼顾数据储存空间的效率和语义复杂度的涵盖率。

有一个简单的办法:

1.把702亿个字符的语料库分割成791个区块，统计出现同一个词语的区块数量。区块数是1-791，而最常见的词语数量数以亿计，最罕见的词语数量只有1。使用区块数代替词语数量数，可以将数值缩小在一个相对均匀的范围内。

2.把区块数目相同的词语看作一个集合，并统计这个集合的词语数量，这样就得到一个类似于直方图的统计图

3.得到图像显示，在这种方式下的词频关系图并不是完全和长尾效应完全一致的，而是一种泊松分布和指数增长的结合体。这在2个字的词语统计分布图中尤为明显。随着词语长度的增加，高频词的出现次数和比例大幅度减小，低频词的出现次数和比例随着词语的长度增加而大幅增长。相对高频的词语位于这个与长尾效应类似的曲线尾部和中部。

1 单个字

2 个字的词语

3个字的词语

4个字的词语

5个字的词语

6个字的词语

7个字的词语

4.以区块数量的某一数值作为边界，对70亿个词语进行数据缩减，只保留相对高频的词语。大部分图像显示为长尾图，横轴代表区块数量，竖轴代表同一区块数量对应的词语数量。横轴越小，斜率越大，说明因为词语对应字的排列组合导致无序效应在罕见的词语中越来越明显。为了覆盖足够高的语义复杂度，只需要计算曲线斜率最大值按照一定比例缩小后对应的点，就是无序与有序的临界点。
临界点的斜率是曲线最大斜率的固定比例的关系，如果选择比较合适的临界点处，语义复杂度正在增长，还没到无序到不受控制的增长程度。
临界点选择，使用暴力穷举法，试用不同的比例参数，可以看到，在选择某个参数附近后，分割获得的高频词语数量增长趋于稳定。这个参数就是理想的分割参数。

下图显示通过实验获得的理想参数下的临界点位置：

1 单个字

2 个字的词语

3 个字的词语

4 个字的词语

5 个字的词语

6 个字的词语

7 个字的词语

15 个字的词语

16 个字的词语

使用临界算法初步获得约为2400万的词语。

加入其他高权词库，合计2471万。

这个数量级别的词库，到底整句输入法准确率怎么样呢？

上图

使用搜狗拼音，同样可以打出正确的语句。

值得注意的是，搜狗输入法是经过高度算法优化的，一定包含中文语法逻辑。
而鸿雁输入法仅仅是采用rime输入法的整句引擎和1-16个字长度的词语概率统计。rime输入法的整句引擎的算法没有仔细看，应该是基于拼音不同拆分，对应的语句组合相应的概率进行优先级排序。

对于底层细节的了解，作者就没有进行更多的整句测试。有兴趣的可以打开中央电视台，按照电视台播音打出语句，测试准确度怎么样。

包含2471万词语的鸿雁输入法并没有采用中文语法算法的引擎，仅仅依靠庞大的词语频率统计，在整句输入功能上已经和搜狗输入法不相上下(这只是个人的看法，是否真实需要广大网友的验证)。

在鸿雁输入法之前的描述，可以得知，鸿雁输入法自带的单字拼音库，是目前互联网上公开的最为准确的拼音库。
原来词语的拼音采用暴力穷举的方法，正确的拼音一定有，但是还存在大量的字的拼音是正确的，词语的拼音确是错误的情况。最近，使用现代汉语词典的数据对词语拼音大幅优化，这种情况大大改善。

同时优化了国家拼音标准移植到rime输入法后存在的缺陷。

更改特殊拼音

㕶 n ng 呒 fu m 呣 m mou 哏 gen hen n 哼 heng hng 哽 geng ng ying 唔 m n ng wu 嗯 n ng 嘸 fu m wu 噷 hen hm xin 姆 m mu

n → en
m → mu
hng → heng
ng → en
hm → hen

在单个字的拼音存在多个声母后，使用rime输入法相关的拼音输入会出现优先级被这些特殊的拼音占用的情况。

在从底层消除这些特殊的拼音后，这种情况将彻底消失。

以前输入ng，“那个”这样的词语将不会出现在候选列表，除非输入“nge”或者其他组合。
“n”“m”作为拼音的首字母输入的时候，以前不能显示“你”“们”这样的词语，现在这种情况将不复存在。

鸿雁输入法同时优化了rime输入法另外一个缺陷。

rime输入法有两个拼音输入引擎，一个是基于词语的，另外一个是基于语句的。

词语引擎不能支持整句输入，整句输入引擎使用空格作为分词的按键，这个设计并不合理。
一般用户都习惯使用空格键作为上屏的按键，因为这个按键尺寸最大，而且可以说是跟手距离最近的按键。使用空格分词对词语输入转确率提升不大，使用空格上屏需要按两次，这会影响输入舒适度的设计。一般拼音分词，如果前面的词语出现错误，可以使用TAB键或者退格键进行词语重新选择。

稍微修改了一些rime输入法的源代码，空格键去除分词功能，改为上屏键。

鸿雁输入法包含五笔、全拼、双拼方案。理论上五笔方案应该重码率更低，也支持整句输入，输入体验更为流畅，作者不懂五笔，有待广大网友的测试。

下图是搜狗输入法和鸿雁输入法语义复杂度的对比，以拼音“jidong”为例：

搜狗输入法仅有14个候选词语；鸿雁输入法有83个候选词语。

这只是随机抽取的词语，如果遇到罕见的拼音，那么一定会出现搜狗输入法不能打出的拼音，而鸿雁输入法可以打出的词语。

候选词语数量，上面的例子约为六倍，候选词语倍数是十倍，二十倍的应该是存在的。

输入安装包仅仅包含262万的一个轻量版的词语，这是因为windows平台的rime输入法支持最大数据量有限，超过一定数据量将无法生成索引。
在linux平台可以成功生成2471万的索引，这个索引拿到windows平台和安卓平台都可以使用。

用户需要注意，如果轻量级的词库不能满足实际输入中的准确度需求，需要安装另外一个“预编译词库索引(拼音、五笔)_2471万词语增强包”。

在linux平台生成词库索引需要22.2GB的内存

输入法安装包自带262万轻量级词库生成的词库索引

安装“预编译词库索引(拼音、五笔)_2471万词语增强包”后的词库索引

可以看到词库索引从80多兆上升到800多兆

希望鸿雁输入法能够成为文字工作者、学生、老师、社会各界人士常用的输入法软件。

以上，从技术细节和理论上说明了鸿雁输入法更懂中文，具体实际使用中的体验是否能够达到预期，还需要广大网友的亲身体验。

下载链接：

https://hong-yan.lanzouw.com/b00vvkivc
密码:1234

腾讯词库+鸿雁词库的交集鸿雁拼音腾迅测试版·全拼见118楼

https://forum.freemdict.com/t/topic/15303/118?u=hongyan30

hongyan30 · 2022 年9 月 12 日 07:03

本来觉得技术内容比较枯燥，只能尽力做到通俗易懂。

如果直接像发表论文那样，上来就是公式，那样一般人不会看。

这个稿件酝酿了好几天，限于个人的水平，目前只能这样了。

zheshijie · 2022 年9 月 12 日 07:42

冒昧问下，大侠可以公开词频文件吗

hongyan30 · 2022 年9 月 12 日 07:50

老百姓确实只关心身边的日常的事情
科研技术领域确实与日常生活存在一定的鸿沟。

研发人员只能从技术的角度看待问题。市场化、产品易用性确实与技术层面存在一定差距。

技术是需求和产品驱动的，再好的技术如果没有大众心理学、消费心理学层面的优势，是无法流行起来的。

我希望的是可以逆推。

现在到了一个互联网的时代，一个开源共享的时代。

如果从技术层面讲述这款产品的优异，喜欢看科普的读者会最先接纳这款产品。

类似于小米手机从发烧友圈子中开始流行的。

技术并不枯燥，如果用户理解到相对枯燥的技术的背后驱动是为了做成真正好用的产品的时候，我相信会有一部分用户会理解的。

科技以人为本，科学是第一生产力。

共享、开源、免费、科技应该是未来软件的主流。

hongyan30 · 2022 年9 月 12 日 07:57

可以，因为编译2471万词语需要22GB内存，而且是linux环境，一般人折腾不起，所以明文的编码中只有262万轻量级词库。

完全的词频数据是63GB，2471万词语的词频数据是490MB。

hongyan30 · 2022 年9 月 12 日 08:07

你这个帖子说明是
内容是刚需，
内容比较简单，没有反馈
收藏说明有人认同帖子的价值

hongyan30 · 2022 年9 月 12 日 08:13

这数据统计没错

zheshijie · 2022 年9 月 12 日 08:16

谢谢大侠

idanran · 2022 年9 月 12 日 11:51

有在 GitHub 上开源吗

hongyan30 · 2022 年9 月 12 日 12:00

在一个软件没有很多用户，没有多少光注度的情况下，搞一个官方网站或者 github 作用不大。

只要有人参与，在哪里讨论都是一样的。

idanran · 2022 年9 月 12 日 12:07

如果你想做开源的话，Github 从始至终都是很有必要的。

brightd · 2022 年9 月 12 日 12:58

看样子很不错，但就是太大了！
谢谢！

hahaya · 2022 年9 月 12 日 16:34

请问这么好的输入法有计划支持win 11吗目前用win 11的用户还是很多的吧

hongyan30 · 2022 年9 月 12 日 19:06

这个只需要上游框架支持，鸿雁输入法也支持。
作者的技术功底有限，惭愧

可以在这里发一个支持win 11的issues

shaozhe · 2022 年9 月 12 日 22:13

终于有了词频数据，踏破铁鞋，谢谢

sansi · 2022 年9 月 12 日 22:38

深夜挑灯发帖。首先，很赞赏楼主的项目，期待越来越完善。

请问楼主，您的词库（Windows版_鸿雁输入法v4.0(支持全拼、双拼、五笔)所包含的词库），您使用过吗？测试过么？使用测试了多久？我感觉楼主好像没有很好测试，所以有下面的问题。

我简单试用了下您的词库。觉得对于普通人（比如教师、学生、店铺老板、送外卖小哥、公司职员）来说，您的词库不“实用”，甚至“远”不如明月拼音实用。请原谅这里讲话直接，是因为心情大殷切。

以下是个人评测，不当之处，还请海涵。

楼主，我觉得您“身怀屠龙刀，只做杀猪活！”。您的项目轰轰烈烈，技术手段高超，所援引的理论新奇高深，但关于输入法词库的一些基本要素，您好像视而不见。而且您几次发帖发布词库，这些问题大致都一直存在。

什么是输入法词库要素，我不是专家，也没有长期研究，随便说说吧（每项问题下附上相关的图，楼主词库的截图）：

1，词库词频和字频合理。

想输入含

想输入胡

想简拼输入歇后语

想输入重码

想输入每页

想输入词库

2，收词精当（精当是个相对词）。重码候选项一般不应超过20个。
目前楼主词库很多词语的重码都有几百项，这好像是楼主引以为豪之处。重码几百项多，加上词频不合理，令人窒息！从楼主的几个回帖推测，好像楼主不想要精当，只想要收词多（多未必等于广，“广”者，覆盖大部分需求也，比如覆盖秘书工作的大部分词汇，也覆盖一般机械维修工的大部分词汇；词多而覆盖不广，很多词汇沦为无用词，废词）。如出于特殊目的而追求收词多，这可以理解，但这样的词库恐怕不适合一般人。一般情况下，收词太多，有很多弊端，比如有重码时，翻页太多，输入者迷乱，难以找到想要的词，那太多的词也等于无效词。一般来说，二字词是较常用的词，如果候选项超过20个，也就是超过四页的话（一般每页显示5个候选项），超过部分用处不大了；在词频不合理的时候，这个问题更加恶化，一个常见的词可能排在后面，比如，可能要翻8页才能找到，这样实用吗？输入者不知道自己想要的词是在第6页，还是在的25页，翻页还是不翻页，或者翻了很多页也找不到，还不知道有多少页要翻，多令人绝望啊。

无新词汇一词

li shi词下，有227个重码/选项：

丽䴓 li shi 1000

丽世 li shi 6427

丽事 li shi 3194

丽使 li shi 3098

丽史 li shi 3250

丽士 li shi 2788

丽市 li shi 4874

丽时 li shi 19353

丽是 li shi 32128

丽诗 li shi 3504

例使 li shi 6324

例十 li shi 5591

例失 li shi 10823

例实 li shi 18212

例式 li shi 1707

例施 li shi 2209

例时 li shi 12577

例是 li shi 88182

例示 li shi 3906

例适 li shi 4815

例释 li shi 1766

利世 li shi 7764

利事 li shi 36157

利似 li shi 3896

利使 li shi 14291

利十 li shi 10955

利史 li shi 3078

利士 li shi 11071

利失 li shi 4383

利实 li shi 58531

利市 li shi 18590

利式 li shi 8374

利施 li shi 3508

利时 li shi 387775

利是 li shi 172877

利氏 li shi 8162

利湿 li shi 47076

利石 li shi 3864

利视 li shi 2337

利试 li shi 2317

利诗 li shi 5076

利食 li shi 3519

力世 li shi 6181

力事 li shi 36611

力似 li shi 17110

力使 li shi 102092

力势 li shi 5573

力十 li shi 82839

力士 li shi 139576

力失 li shi 12829

力始 li shi 6132

力实 li shi 124353

力室 li shi 2541

力市 li shi 59408

力师 li shi 2491

力式 li shi 7475

力施 li shi 16180

力时 li shi 95790

力是 li shi 427397

力狮 li shi 7323

力石 li shi 2146

力示 li shi 1891

力视 li shi 6421

力试 li shi 18261

力适 li shi 12003

力释 li shi 6710

力食 li shi 3251

励使 li shi 3675

励士 li shi 6823

励实 li shi 3234

励市 li shi 3690

励时 li shi 3919

励是 li shi 15591

历世 li shi 9096

历事 li shi 6372

历仕 li shi 3425

历使 li shi 8562

历十 li shi 69152

历史 li shi 8699376

历失 li shi 4863

历实 li shi 3310

历时 li shi 228355

历是 li shi 34695

吏事 li shi 4457

吏士 li shi 8947

吏是 li shi 2482

李世 li shi 259008

李仕 li shi 2461

李侍 li shi 8139

李势 li shi 2010

李十 li shi 8201

李士 li shi 23139

李实 li shi 5433

李市 li shi 7762

李师 li shi 51240

李式 li shi 1000

李拭 li shi 1000

李施 li shi 2678

李时 li shi 46854

李是 li shi 10171

李栻 li shi 1000

李氏 li shi 119733

李石 li shi 15167

李诗 li shi 12707

李适 li shi 10298

栗市 li shi 1833

梨是 li shi 4893

歴史 li shi 13496

狸是 li shi 3292

理世 li shi 91593

理事 li shi 1562958

理仕 li shi 2311

理似 li shi 5175

理使 li shi 68066

理势 li shi 2321

理十 li shi 16854

理史 li shi 14000

理士 li shi 6142

理失 li shi 19158

理始 li shi 1796

理实 li shi 143427

理室 li shi 14235

理尸 li shi 4356

理市 li shi 33456

理师 li shi 42195

理式 li shi 5487

理施 li shi 9140

理时 li shi 107657

理是 li shi 270404

理石 li shi 160943

理示 li shi 7302

理视 li shi 9320

理试 li shi 11252

理诗 li shi 3088

理适 li shi 8376

理逝 li shi 2320

理食 li shi 7458

璃世 li shi 2523

璃市 li shi 2697

璃时 li shi 2586

璃是 li shi 7910

砺石 li shi 2472

砾石 li shi 22310

礼事 li shi 3741

礼使 li shi 2461

礼十 li shi 3008

礼士 li shi 6913

礼失 li shi 2950

礼时 li shi 29544

礼是 li shi 30109

礼视 li shi 2695

离世 li shi 107400

离事 li shi 10393

离使 li shi 3856

离十 li shi 18536

离失 li shi 84706

离实 li shi 27874

离室 li shi 3193

离市 li shi 30104

离式 li shi 8126

离时 li shi 38937

离是 li shi 51119

离石 li shi 16947

离视 li shi 2556

立世 li shi 17882

立事 li shi 18482

立似 li shi 1828

立使 li shi 9211

立势 li shi 2496

立十 li shi 23934

立史 li shi 1705

立失 li shi 1840

立实 li shi 15980

立室 li shi 2257

立市 li shi 19713

立师 li shi 13224

立式 li shi 53598

立时 li shi 260502

立是 li shi 36655

立殖 li shi 4046

立石 li shi 15844

立视 li shi 2495

立誓 li shi 23818

立适 li shi 13571

立食 li shi 6788

粒是 li shi 5118

粒石 li shi 2660

莉十 li shi 1741

莉是 li shi 10564

郦食 li shi 10741

里世 li shi 5835

里事 li shi 10717

里似 li shi 43948

里使 li shi 36157

里侍 li shi 2064

里十 li shi 40918

里士 li shi 187111

里失 li shi 18126

里始 li shi 13258

里实 li shi 43489

里市 li shi 20263

里拾 li shi 3361

里施 li shi 7553

里时 li shi 115600

里是 li shi 881672

里氏 li shi 21992

里湿 li shi 2563

里石 li shi 4720

里视 li shi 4530

里试 li shi 12124

里诗 li shi 3193

里适 li shi 4677

里释 li shi 3685

里食 li shi 7071

里饰 li shi 4161

里驶 li shi 2349

隶市 li shi 2815

隶时 li shi 1812

隶是 li shi 3515

黎世 li shi 63727

黎十 li shi 2983

黎士 li shi 2018

黎市 li shi 16512

黎时 li shi 36277

黎是 li shi 7429

黎氏 li shi 7075

黎食 li shi 1990

3，拼音尽量正确。 可以有些容错的拼音。不知这个实现起来难不难？

想输入“（项目）实现得（很好）”，必须输入 shi xian dei才能找到

命令xing

想输入太殷切，竟然出现大殷切

4，从语料库取得的字频和词频，可以直接用作输入法词库的字频和词频吗？ 窃以为不可以，具体原因一言难尽，先不说阐述了。
5，包含常用的口语聊天词汇，会很有用。 比如包含：吃过了吗？再发我；请再发我一次；明天聊吧。这几个词汇目前好像不包括。
6，番外： 您的种种算法是否需要改进？关于词库设计，您是否需要改进理念？是否需要另设一贴，集思广益，专门谈论输入法词库的一些理念？收词量多大为好，所收词汇如何更有用，更能覆盖更多的行业输入要求？是否收录一些常见行业专业词汇，并额外加大它们的词频权重？是否选用一些词表，比如小学古文、诗词，常用俗语等，使得常用词汇不缺失，而不是全靠楼主所述的语料库来提取词汇。比如，在输入法界，“大词库”一词是常用词汇，您从语料库提取的词汇不包含，是否需要额外加入一些常用词表？

想输入大词库：

想输入难不难，无

想输入简拼一词，无。

|—|—|—|
|件品|jian pin|3691|
|件拼|jian pin|3917|
|件频|jian pin|12906|
|健品|jian pin|92851|
|减贫|jian pin|27103|
|尖品|jian pin|2309|
|建品|jian pin|5032|
|简嫔|jian pin|1000|
|荐品|jian pin|3599|
|见品|jian pin|3935|
|间品|jian pin|5097|
|间拼|jian pin|2096|
|间频|jian pin|5675|

冒犯之处不存在

小学课文有句古文，天下事有难易乎，不存在

候选项，不存在

絮絮叨叨，可能词不达意，冒犯之处，还请见谅，实在觉得楼主想法很好，项目应该实现得更好！

etanalyst · 2022 年9 月 12 日 23:20

好东西
不好设置

hongyan30 · 2022 年9 月 12 日 23:50

您说的单字拼音存在不合理的问题，那是因为权威的资料这个字确实有这个读音，这是一个多音字。
是有一个多音字的拼音频率字典（unicode汉字kHanyuPinlu），其中的可以解决你提到的常见的字相对罕见的拼音，这个数据并不全面，所以没有采纳。

你提到的词语拼音不准确现象，那大部分是在262万的词条数据下的不足，如果升级到2471万的词库，这种不准确的现象会大大减少。

下面，就您提到的不准确的词语逐一在2471万的词库重新检验。

hongyan30 · 2022 年9 月 13 日 00:26

您应该安装 2471万词库增强包。

词库升级到10倍后，歇后语正确的汉字出现
重码排序第八

每页排序第八
次哭确实比词库流行
实现得排名第19，前面的词语按照语料库的统计更为常见
因为得这个汉字存在拼音冗余，所以你可以用 shixiandei 打出这个词语。

在使用现代汉语词典的拼音库缩减冗余的拼音时，采取比较保守的做法，当时因为“得”的拼音比较复杂，对于这个多音字一律使用暴力穷举的方案。

命令行排名第二

大词库并不是高频词

拆分成da’ciku ,次哭的频率高于词库，因此看到这个奇怪的词语。

如果词库索引上升到64GB，会有的“大词库”这个词语的。

下面的例子不一一列举了。

鸿雁输入法不能做到百分之百涵盖所有词汇，但可以涵盖绝大部分词汇

2471万根据笔者推测是一个介于有序与无序之间的临界值。以上的例子应该会佐证这一观点。

sansi · 2022 年9 月 13 日 01:38

我上面测试的时候，确实没有用2471万词库增强包。由于能力和时间有限，还没有折腾好2471万词库增强包，惭愧。
次哭的词频为什么比词库的词频高？是因为您使用的算法？那算法合理么？对一般使用者的输入效率而言，次哭比词库的词频高，有什么实际的益处么？另外，如果在搜索引擎分别搜索两个词，显然词库的词频高。这如何解释？按照您算法严格整理出的词频，是不是需要人工干预调整？引用我上面帖子中的一句话，

“从语料库取得的字频和词频，可以直接用作输入法词库的字频和词频吗？窃以为不可以”
。

vj9BdO

即使次哭的词频高，但感觉实际上词库一词更常用，次哭甚至不是词，貌似其他输入法也很少将其收入词库。
@6lj6 "鸿雁更多的是提供巨量的句子智能联想”，非常同意！鸿雁词库的妙处多多。可惜单字和词语词频太不合理，难以使用。
关于单字字频，楼主说，“您说的单字拼音存在不合理的问题，那是因为权威的资料这个字确实有这个读音，这是一个多音字。是有一个多音字的拼音频率字典（unicode汉字kHanyuPinlu），其中的可以解决你提到的常见的字相对罕见的拼音，这个数据并不全面，所以没有采纳”。即使不全面，也可以用下，这样就基本满足大部分普通人的需求；另外词语词频，也需要调整。字频和词频调整一下，鸿雁输入法就可以用在日常生活和生产环境了。否则目前的词库虽然很大、很高尚，但实际很难用。不知有多少看官愿意在日常生活和工作中使用目前的鸿雁输入法？楼主请调整一下单字和词语频率，这应该是举手之劳，这样普通网友就可以幸福地用上这个输入法了，窃以为这是紧要的任务；以后您可以再做其他调整。
上贴楼主所发的每个截图中，很多地方可以看出，各个词语下面词频有很多不合理之处。比如想输入每页这个词，美也、妹也、梅耶等词都排在前面；这样是明显地不合理的。另外，重码一词，也有同样的问题。

7.楼主说“大词库并不是高频词”，所以未收录。这恐怕说服力很小吧？楼主词库收录了很多稀有罕见的词，偏偏不收录大词库一词；小词库，简拼，这两个词也没有收录。混迹于论坛、倒腾输入法的网友，谁没有接触过大词库一词？楼主的语料库，选词方法，算法，是不是需要调整？

丽䴓	li shi	1000
丽世	li shi	6427
丽事	li shi	3194
丽使	li shi	3098
丽史	li shi	3250
丽士	li shi	2788
丽市	li shi	4874
丽时	li shi	19353
丽是	li shi	32128
丽诗	li shi	3504
例使	li shi	6324
例十	li shi	5591
例失	li shi	10823
例实	li shi	18212
例式	li shi	1707
例施	li shi	2209
例时	li shi	12577
例是	li shi	88182
例示	li shi	3906
例适	li shi	4815
例释	li shi	1766
利世	li shi	7764
利事	li shi	36157
利似	li shi	3896
利使	li shi	14291
利十	li shi	10955
利史	li shi	3078
利士	li shi	11071
利失	li shi	4383
利实	li shi	58531
利市	li shi	18590
利式	li shi	8374
利施	li shi	3508
利时	li shi	387775
利是	li shi	172877
利氏	li shi	8162
利湿	li shi	47076
利石	li shi	3864
利视	li shi	2337
利试	li shi	2317
利诗	li shi	5076
利食	li shi	3519
力世	li shi	6181
力事	li shi	36611
力似	li shi	17110
力使	li shi	102092
力势	li shi	5573
力十	li shi	82839
力士	li shi	139576
力失	li shi	12829
力始	li shi	6132
力实	li shi	124353
力室	li shi	2541
力市	li shi	59408
力师	li shi	2491
力式	li shi	7475
力施	li shi	16180
力时	li shi	95790
力是	li shi	427397
力狮	li shi	7323
力石	li shi	2146
力示	li shi	1891
力视	li shi	6421
力试	li shi	18261
力适	li shi	12003
力释	li shi	6710
力食	li shi	3251
励使	li shi	3675
励士	li shi	6823
励实	li shi	3234
励市	li shi	3690
励时	li shi	3919
励是	li shi	15591
历世	li shi	9096
历事	li shi	6372
历仕	li shi	3425
历使	li shi	8562
历十	li shi	69152
历史	li shi	8699376
历失	li shi	4863
历实	li shi	3310
历时	li shi	228355
历是	li shi	34695
吏事	li shi	4457
吏士	li shi	8947
吏是	li shi	2482
李世	li shi	259008
李仕	li shi	2461
李侍	li shi	8139
李势	li shi	2010
李十	li shi	8201
李士	li shi	23139
李实	li shi	5433
李市	li shi	7762
李师	li shi	51240
李式	li shi	1000
李拭	li shi	1000
李施	li shi	2678
李时	li shi	46854
李是	li shi	10171
李栻	li shi	1000
李氏	li shi	119733
李石	li shi	15167
李诗	li shi	12707
李适	li shi	10298
栗市	li shi	1833
梨是	li shi	4893
歴史	li shi	13496
狸是	li shi	3292
理世	li shi	91593
理事	li shi	1562958
理仕	li shi	2311
理似	li shi	5175
理使	li shi	68066
理势	li shi	2321
理十	li shi	16854
理史	li shi	14000
理士	li shi	6142
理失	li shi	19158
理始	li shi	1796
理实	li shi	143427
理室	li shi	14235
理尸	li shi	4356
理市	li shi	33456
理师	li shi	42195
理式	li shi	5487
理施	li shi	9140
理时	li shi	107657
理是	li shi	270404
理石	li shi	160943
理示	li shi	7302
理视	li shi	9320
理试	li shi	11252
理诗	li shi	3088
理适	li shi	8376
理逝	li shi	2320
理食	li shi	7458
璃世	li shi	2523
璃市	li shi	2697
璃时	li shi	2586
璃是	li shi	7910
砺石	li shi	2472
砾石	li shi	22310
礼事	li shi	3741
礼使	li shi	2461
礼十	li shi	3008
礼士	li shi	6913
礼失	li shi	2950
礼时	li shi	29544
礼是	li shi	30109
礼视	li shi	2695
离世	li shi	107400
离事	li shi	10393
离使	li shi	3856
离十	li shi	18536
离失	li shi	84706
离实	li shi	27874
离室	li shi	3193
离市	li shi	30104
离式	li shi	8126
离时	li shi	38937
离是	li shi	51119
离石	li shi	16947
离视	li shi	2556
立世	li shi	17882
立事	li shi	18482
立似	li shi	1828
立使	li shi	9211
立势	li shi	2496
立十	li shi	23934
立史	li shi	1705
立失	li shi	1840
立实	li shi	15980
立室	li shi	2257
立市	li shi	19713
立师	li shi	13224
立式	li shi	53598
立时	li shi	260502
立是	li shi	36655
立殖	li shi	4046
立石	li shi	15844
立视	li shi	2495
立誓	li shi	23818
立适	li shi	13571
立食	li shi	6788
粒是	li shi	5118
粒石	li shi	2660
莉十	li shi	1741
莉是	li shi	10564
郦食	li shi	10741
里世	li shi	5835
里事	li shi	10717
里似	li shi	43948
里使	li shi	36157
里侍	li shi	2064
里十	li shi	40918
里士	li shi	187111
里失	li shi	18126
里始	li shi	13258
里实	li shi	43489
里市	li shi	20263
里拾	li shi	3361
里施	li shi	7553
里时	li shi	115600
里是	li shi	881672
里氏	li shi	21992
里湿	li shi	2563
里石	li shi	4720
里视	li shi	4530
里试	li shi	12124
里诗	li shi	3193
里适	li shi	4677
里释	li shi	3685
里食	li shi	7071
里饰	li shi	4161
里驶	li shi	2349
隶市	li shi	2815
隶时	li shi	1812
隶是	li shi	3515
黎世	li shi	63727
黎十	li shi	2983
黎士	li shi	2018
黎市	li shi	16512
黎时	li shi	36277
黎是	li shi	7429
黎氏	li shi	7075
黎食	li shi	1990