鸿雁输入法——整句输入法中一颗冉冉升起的新星

鸿雁输入法经过重大升级,在整句输入上做到物理上的极致优化。

首先是语料库的升级。目前的语料库有150GB,包含702亿个字符,有效汉字字符380亿个。

其中:
epubee整站电子书5.3万本,65.6GB
全网能找到的所有微博语料,38.6GB
百度百科500多万条,15.6GB
中文维基百科全部条目,10.1GB
各类新闻语料,12.6GB
微信公众号语料,2.9GB
联合国平行语料库中文部分,1.4GB
1946年-2003年人民日报全部数据纯文本,3.1GB

腾讯的自然语言处理研究开源了一个大规模中文词向量: 提供在300亿词的语料上训练的、包含8百万词汇的中文词向量数据,向量维度为200维。

以腾讯的大规模中文词向量作为比较:

腾讯的大规模中文词向量是在300亿词的语料上训练的;鸿雁输入法的语料包含702亿个字符,有效汉字字符380亿个。
腾讯的大规模中文词向量包含8百万词汇(最新版是1200万);鸿雁输入法包含的词汇量是2471万,而且这个数量刚好位于有序与无序的临界点。也就是超过2471万的词汇量对词语的质量没有太大提升,反而会浪费储存空间。
腾讯的大规模中文词向量依赖于结巴分词这样的分词软件,会出现分词不完全的情况;鸿雁输入法的分词采用的是机械分词,不会遗漏任何一个可能的词汇,并且从2-16个长度的词语全部进行统计。
腾讯的大规模中文词向量语料如果猜测的没错的话,主要是来源于网页抓取;鸿雁输入法同样大部分也是来源于网页抓取,不过数量更加庞大,选择的语料库是经过精心挑选的,具备典型性。

腾讯的大规模中文词向量底层采用word2vec技术,将分析的词语赋予一个多维空间的向量,依据向量的空间距离可以获得不同词语的相似度;

近距离语义分析,只有在切换输入法的情景才会有效,腾讯的语料库嵌入数据集,1200万的词条解压后,100维的版本有12GB,200维的版本有22GB,占用空间太大。而且需要相对复杂的余弦相似度运算。
如果要把腾讯的大规模中文词向量用于输入法,还需要调整算法,对一个已知词语的前面和后面的词语进行关联概率统计,概率模型是马尔可夫链。

鸿雁输入法基于词频统计的最大概率排序,同样可以对千万级的词汇进行统计。如果把2-4个字的词语前后组合排列,就构成一个更大的词语。在不考虑中文语法规则得情况下,把一个句子当作一个词语,和词语一样,按照语料库的出现概率大小进行排序,同样可以实现整句输入的效果。只要保证足够大、足够全面的语料样本,语句按照词语分割后,按照所有分词组合对应的概率排序,就可以获得质量相当高的整句输入法。鸿雁输入法在语料库分析的时候,最大的词语长度是16,这个长度已经足以覆盖绝大部分中文语句的使用场合。

下图是不同长度的词语出现的数量横向对比图

image

根据上图可以看出,中文词语在超过8个字的长度,比例大幅减少。中文词语的长度主要集中在2-6个字。

在对702亿个字符的语料库统计后,获得70亿个词语的数据,约为63GB。

下面就面临一个高频词语的选择问题。

一个输入法包含70亿个数据,显然这个数据过于庞大。

如果选择的高频词语数量过少,那么输入法的词语准确率就会偏低。
如果选择的高频词语数量太大,因为各种原因产生的错误的词语就会增多。

选择高频词,需要兼顾数据储存空间的效率和语义复杂度的涵盖率。

有一个简单的办法:

1.把702亿个字符的语料库分割成791个区块,统计出现同一个词语的区块数量。区块数是1-791,而最常见的词语数量数以亿计,最罕见的词语数量只有1。使用区块数代替词语数量数,可以将数值缩小在一个相对均匀的范围内。

2.把区块数目相同的词语看作一个集合,并统计这个集合的词语数量,这样就得到一个类似于直方图的统计图

3.得到图像显示,在这种方式下的词频关系图并不是完全和长尾效应完全一致的,而是一种泊松分布和指数增长的结合体。这在2个字的词语统计分布图中尤为明显。随着词语长度的增加,高频词的出现次数和比例大幅度减小,低频词的出现次数和比例随着词语的长度增加而大幅增长。相对高频的词语位于这个与长尾效应类似的曲线尾部和中部。

1 单个字

image

2 个字的词语

image

3个字的词语

image

4个字的词语

image

5个字的词语

image

6个字的词语

image

7个字的词语

image

4.以区块数量的某一数值作为边界,对70亿个词语进行数据缩减,只保留相对高频的词语。大部分图像显示为长尾图,横轴代表区块数量,竖轴代表同一区块数量对应的词语数量。横轴越小,斜率越大,说明因为词语对应字的排列组合导致无序效应在罕见的词语中越来越明显。为了覆盖足够高的语义复杂度,只需要计算曲线斜率最大值按照一定比例缩小后对应的点,就是无序与有序的临界点。
临界点的斜率是曲线最大斜率的固定比例的关系,如果选择比较合适的临界点处,语义复杂度正在增长,还没到无序到不受控制的增长程度。
临界点选择,使用暴力穷举法,试用不同的比例参数,可以看到,在选择某个参数附近后,分割获得的高频词语数量增长趋于稳定。这个参数就是理想的分割参数。

下图显示通过实验获得的理想参数下的临界点位置:

1 单个字

image

2 个字的词语

image

3 个字的词语

image

4 个字的词语

image

5 个字的词语

image

6 个字的词语

image

7 个字的词语

image

15 个字的词语

image

16 个字的词语

image

使用临界算法初步获得约为2400万的词语。

加入其他高权词库,合计2471万。

这个数量级别的词库,到底整句输入法准确率怎么样呢?

上图

使用搜狗拼音,同样可以打出正确的语句。

值得注意的是,搜狗输入法是经过高度算法优化的,一定包含中文语法逻辑。
而鸿雁输入法仅仅是采用rime输入法的整句引擎和1-16个字长度的词语概率统计。rime输入法的整句引擎的算法没有仔细看,应该是基于拼音不同拆分,对应的语句组合相应的概率进行优先级排序。

对于底层细节的了解,作者就没有进行更多的整句测试。有兴趣的可以打开中央电视台,按照电视台播音打出语句,测试准确度怎么样。

包含2471万词语的鸿雁输入法并没有采用中文语法算法的引擎,仅仅依靠庞大的词语频率统计,在整句输入功能上已经和搜狗输入法不相上下(这只是个人的看法,是否真实需要广大网友的验证)。

在鸿雁输入法之前的描述,可以得知,鸿雁输入法自带的单字拼音库,是目前互联网上公开的最为准确的拼音库。
原来词语的拼音采用暴力穷举的方法,正确的拼音一定有,但是还存在大量的字的拼音是正确的,词语的拼音确是错误的情况。最近,使用现代汉语词典的数据对词语拼音大幅优化,这种情况大大改善。

同时优化了国家拼音标准移植到rime输入法后存在的缺陷。

更改特殊拼音

㕶 n ng 呒 fu m 呣 m mou 哏 gen hen n 哼 heng hng 哽 geng ng ying 唔 m n ng wu 嗯 n ng 嘸 fu m wu 噷 hen hm xin 姆 m mu

n → en
m → mu
hng → heng
ng → en
hm → hen

在单个字的拼音存在多个声母后,使用rime输入法相关的拼音输入会出现优先级被这些特殊的拼音占用的情况。

在从底层消除这些特殊的拼音后,这种情况将彻底消失。

以前输入ng,“那个”这样的词语将不会出现在候选列表,除非输入“nge”或者其他组合。
“n”“m”作为拼音的首字母输入的时候,以前不能显示“你”“们”这样的词语,现在这种情况将不复存在。

鸿雁输入法同时优化了rime输入法另外一个缺陷。

rime输入法有两个拼音输入引擎,一个是基于词语的,另外一个是基于语句的。

词语引擎不能支持整句输入,整句输入引擎使用空格作为分词的按键,这个设计并不合理。
一般用户都习惯使用空格键作为上屏的按键,因为这个按键尺寸最大,而且可以说是跟手距离最近的按键。使用空格分词对词语输入转确率提升不大,使用空格上屏需要按两次,这会影响输入舒适度的设计。一般拼音分词,如果前面的词语出现错误,可以使用TAB键或者退格键进行词语重新选择。

稍微修改了一些rime输入法的源代码,空格键去除分词功能,改为上屏键。

鸿雁输入法包含五笔、全拼、双拼方案。理论上五笔方案应该重码率更低,也支持整句输入,输入体验更为流畅,作者不懂五笔,有待广大网友的测试。

下图是搜狗输入法和鸿雁输入法语义复杂度的对比,以拼音“jidong”为例:

image

搜狗输入法仅有14个候选词语;鸿雁输入法有83个候选词语。

这只是随机抽取的词语,如果遇到罕见的拼音,那么一定会出现搜狗输入法不能打出的拼音,而鸿雁输入法可以打出的词语。

候选词语数量,上面的例子约为六倍,候选词语倍数是十倍,二十倍的应该是存在的。

输入安装包仅仅包含262万的一个轻量版的词语,这是因为windows平台的rime输入法支持最大数据量有限,超过一定数据量将无法生成索引。
在linux平台可以成功生成2471万的索引,这个索引拿到windows平台和安卓平台都可以使用。

用户需要注意,如果轻量级的词库不能满足实际输入中的准确度需求,需要安装另外一个“预编译词库索引(拼音、五笔)_2471万词语增强包”。

在linux平台生成词库索引需要22.2GB的内存

输入法安装包自带262万轻量级词库生成的词库索引

安装“预编译词库索引(拼音、五笔)_2471万词语增强包”后的词库索引

可以看到词库索引从80多兆上升到800多兆

希望鸿雁输入法能够成为文字工作者、学生、老师、社会各界人士常用的输入法软件。

以上,从技术细节和理论上说明了鸿雁输入法更懂中文,具体实际使用中的体验是否能够达到预期,还需要广大网友的亲身体验。

下载链接:

https://hong-yan.lanzouw.com/b00vvkivc
密码:1234

腾讯词库+鸿雁词库的交集 鸿雁拼音腾迅测试版·全拼 见118楼

https://forum.freemdict.com/t/topic/15303/118?u=hongyan30

10 个赞

本来觉得技术内容比较枯燥,只能尽力做到通俗易懂。

如果直接像发表论文那样,上来就是公式,那样一般人不会看。

这个稿件酝酿了好几天,限于个人的水平,目前只能这样了。

2 个赞

冒昧问下,大侠可以公开词频文件吗

2 个赞

老百姓确实只关心身边的日常的事情
科研技术领域确实与日常生活存在一定的鸿沟。

研发人员只能从技术的角度看待问题。市场化、产品易用性确实与技术层面存在一定差距。

技术是需求和产品驱动的,再好的技术如果没有大众心理学、消费心理学层面的优势,是无法流行起来的。

我希望的是可以逆推。

现在到了一个互联网的时代,一个开源共享的时代。

如果从技术层面讲述这款产品的优异,喜欢看科普的读者会最先接纳这款产品。

类似于小米手机从发烧友圈子中开始流行的。

技术并不枯燥,如果用户理解到相对枯燥的技术的背后驱动是为了做成真正好用的产品的时候,我相信会有一部分用户会理解的。

科技以人为本,科学是第一生产力。

共享、开源、免费、科技应该是未来软件的主流。

3 个赞

可以,因为编译2471万词语需要22GB内存,而且是linux环境,一般人折腾不起,所以明文的编码中只有262万轻量级词库。

完全的词频数据是63GB,2471万词语的词频数据是490MB。

1 个赞

你这个帖子说明是
内容是刚需,
内容比较简单,没有反馈
收藏说明有人认同帖子的价值

这数据统计没错

2 个赞

谢谢大侠 :grinning:

有在 GitHub 上开源吗

1 个赞

在一个软件没有很多用户,没有多少光注度的情况下,搞一个官方网站或者 github 作用不大。

只要有人参与,在哪里讨论都是一样的。

2 个赞

如果你想做开源的话,Github 从始至终都是很有必要的。

1 个赞

看样子很不错,但就是太大了!
谢谢!

请问这么好的输入法有计划支持win 11吗 目前用win 11的用户还是很多的吧

1 个赞

这个只需要上游框架支持,鸿雁输入法也支持。
作者的技术功底有限,惭愧

可以在这里发一个支持win 11的issues

终于有了词频数据,踏破铁鞋,谢谢

1 个赞

深夜挑灯发帖。首先,很赞赏楼主的项目,期待越来越完善。

请问楼主,您的词库(Windows版_鸿雁输入法v4.0(支持全拼、双拼、五笔)所包含的词库),您使用过吗?测试过么?使用测试了多久?我感觉楼主好像没有很好测试,所以有下面的问题。

我简单试用了下您的词库。觉得对于普通人(比如教师、学生、店铺老板、送外卖小哥、公司职员)来说,您的词库不“实用”,甚至“远”不如明月拼音实用。请原谅这里讲话直接,是因为心情大殷切。

以下是个人评测,不当之处,还请海涵。

楼主,我觉得您“身怀屠龙刀,只做杀猪活!”。您的项目轰轰烈烈,技术手段高超,所援引的理论新奇高深,但关于输入法词库的一些基本要素,您好像视而不见。而且您几次发帖发布词库,这些问题大致都一直存在。

什么是输入法词库要素,我不是专家,也没有长期研究,随便说说吧(每项问题下附上相关的图,楼主词库的截图):

1,词库词频和字频合理。

想输入 含

image

想输入 胡
image

想简拼输入 歇后语

image
想输入 重码

image

想输入 每页
image

想输入 词库
image

2,收词精当(精当是个相对词)。重码候选项一般不应超过20个。
目前楼主词库很多词语的重码都有几百项,这好像是楼主引以为豪之处。重码几百项多,加上词频不合理,令人窒息!从楼主的几个回帖推测,好像楼主不想要精当,只想要收词多(多未必等于广,“广”者,覆盖大部分需求也,比如覆盖秘书工作的大部分词汇,也覆盖一般机械维修工的大部分词汇;词多而覆盖不广,很多词汇沦为无用词,废词)。如出于特殊目的而追求收词多,这可以理解,但这样的词库恐怕不适合一般人。一般情况下,收词太多,有很多弊端,比如有重码时,翻页太多,输入者迷乱,难以找到想要的词,那太多的词也等于无效词。一般来说,二字词是较常用的词,如果候选项超过20个,也就是超过四页的话(一般每页显示5个候选项),超过部分用处不大了;在词频不合理的时候,这个问题更加恶化,一个常见的词可能排在后面,比如,可能要翻8页才能找到,这样实用吗?输入者不知道自己想要的词是在第6页,还是在的25页,翻页还是不翻页,或者翻了很多页也找不到,还不知道有多少页要翻,多令人绝望啊。

无 新词汇 一词
image

li shi词下,有227个重码/选项:

丽䴓 li shi 1000
丽世 li shi 6427
丽事 li shi 3194
丽使 li shi 3098
丽史 li shi 3250
丽士 li shi 2788
丽市 li shi 4874
丽时 li shi 19353
丽是 li shi 32128
丽诗 li shi 3504
例使 li shi 6324
例十 li shi 5591
例失 li shi 10823
例实 li shi 18212
例式 li shi 1707
例施 li shi 2209
例时 li shi 12577
例是 li shi 88182
例示 li shi 3906
例适 li shi 4815
例释 li shi 1766
利世 li shi 7764
利事 li shi 36157
利似 li shi 3896
利使 li shi 14291
利十 li shi 10955
利史 li shi 3078
利士 li shi 11071
利失 li shi 4383
利实 li shi 58531
利市 li shi 18590
利式 li shi 8374
利施 li shi 3508
利时 li shi 387775
利是 li shi 172877
利氏 li shi 8162
利湿 li shi 47076
利石 li shi 3864
利视 li shi 2337
利试 li shi 2317
利诗 li shi 5076
利食 li shi 3519
力世 li shi 6181
力事 li shi 36611
力似 li shi 17110
力使 li shi 102092
力势 li shi 5573
力十 li shi 82839
力士 li shi 139576
力失 li shi 12829
力始 li shi 6132
力实 li shi 124353
力室 li shi 2541
力市 li shi 59408
力师 li shi 2491
力式 li shi 7475
力施 li shi 16180
力时 li shi 95790
力是 li shi 427397
力狮 li shi 7323
力石 li shi 2146
力示 li shi 1891
力视 li shi 6421
力试 li shi 18261
力适 li shi 12003
力释 li shi 6710
力食 li shi 3251
励使 li shi 3675
励士 li shi 6823
励实 li shi 3234
励市 li shi 3690
励时 li shi 3919
励是 li shi 15591
历世 li shi 9096
历事 li shi 6372
历仕 li shi 3425
历使 li shi 8562
历十 li shi 69152
历史 li shi 8699376
历失 li shi 4863
历实 li shi 3310
历时 li shi 228355
历是 li shi 34695
吏事 li shi 4457
吏士 li shi 8947
吏是 li shi 2482
李世 li shi 259008
李仕 li shi 2461
李侍 li shi 8139
李势 li shi 2010
李十 li shi 8201
李士 li shi 23139
李实 li shi 5433
李市 li shi 7762
李师 li shi 51240
李式 li shi 1000
李拭 li shi 1000
李施 li shi 2678
李时 li shi 46854
李是 li shi 10171
李栻 li shi 1000
李氏 li shi 119733
李石 li shi 15167
李诗 li shi 12707
李适 li shi 10298
栗市 li shi 1833
梨是 li shi 4893
歴史 li shi 13496
狸是 li shi 3292
理世 li shi 91593
理事 li shi 1562958
理仕 li shi 2311
理似 li shi 5175
理使 li shi 68066
理势 li shi 2321
理十 li shi 16854
理史 li shi 14000
理士 li shi 6142
理失 li shi 19158
理始 li shi 1796
理实 li shi 143427
理室 li shi 14235
理尸 li shi 4356
理市 li shi 33456
理师 li shi 42195
理式 li shi 5487
理施 li shi 9140
理时 li shi 107657
理是 li shi 270404
理石 li shi 160943
理示 li shi 7302
理视 li shi 9320
理试 li shi 11252
理诗 li shi 3088
理适 li shi 8376
理逝 li shi 2320
理食 li shi 7458
璃世 li shi 2523
璃市 li shi 2697
璃时 li shi 2586
璃是 li shi 7910
砺石 li shi 2472
砾石 li shi 22310
礼事 li shi 3741
礼使 li shi 2461
礼十 li shi 3008
礼士 li shi 6913
礼失 li shi 2950
礼时 li shi 29544
礼是 li shi 30109
礼视 li shi 2695
离世 li shi 107400
离事 li shi 10393
离使 li shi 3856
离十 li shi 18536
离失 li shi 84706
离实 li shi 27874
离室 li shi 3193
离市 li shi 30104
离式 li shi 8126
离时 li shi 38937
离是 li shi 51119
离石 li shi 16947
离视 li shi 2556
立世 li shi 17882
立事 li shi 18482
立似 li shi 1828
立使 li shi 9211
立势 li shi 2496
立十 li shi 23934
立史 li shi 1705
立失 li shi 1840
立实 li shi 15980
立室 li shi 2257
立市 li shi 19713
立师 li shi 13224
立式 li shi 53598
立时 li shi 260502
立是 li shi 36655
立殖 li shi 4046
立石 li shi 15844
立视 li shi 2495
立誓 li shi 23818
立适 li shi 13571
立食 li shi 6788
粒是 li shi 5118
粒石 li shi 2660
莉十 li shi 1741
莉是 li shi 10564
郦食 li shi 10741
里世 li shi 5835
里事 li shi 10717
里似 li shi 43948
里使 li shi 36157
里侍 li shi 2064
里十 li shi 40918
里士 li shi 187111
里失 li shi 18126
里始 li shi 13258
里实 li shi 43489
里市 li shi 20263
里拾 li shi 3361
里施 li shi 7553
里时 li shi 115600
里是 li shi 881672
里氏 li shi 21992
里湿 li shi 2563
里石 li shi 4720
里视 li shi 4530
里试 li shi 12124
里诗 li shi 3193
里适 li shi 4677
里释 li shi 3685
里食 li shi 7071
里饰 li shi 4161
里驶 li shi 2349
隶市 li shi 2815
隶时 li shi 1812
隶是 li shi 3515
黎世 li shi 63727
黎十 li shi 2983
黎士 li shi 2018
黎市 li shi 16512
黎时 li shi 36277
黎是 li shi 7429
黎氏 li shi 7075
黎食 li shi 1990

3,拼音尽量正确。 可以有些容错的拼音。不知这个实现起来难不难?

想输入“(项目)实现得(很好)”,必须输入 shi xian dei才能找到
image

命令xing
image

想输入 太殷切,竟然出现 大殷切

image

4,从语料库取得的字频和词频,可以直接用作输入法词库的字频和词频吗? 窃以为不可以,具体原因一言难尽,先不说阐述了。
5,包含常用的口语聊天词汇,会很有用。 比如包含:吃过了吗?再发我;请再发我一次;明天聊吧。这几个词汇目前好像不包括。
6,番外: 您的种种算法是否需要改进?关于词库设计,您是否需要改进理念?是否需要另设一贴,集思广益,专门谈论输入法词库的一些理念?收词量多大为好,所收词汇如何更有用,更能覆盖更多的行业输入要求?是否收录一些常见行业专业词汇,并额外加大它们的词频权重?是否选用一些词表,比如小学古文、诗词,常用俗语等,使得常用词汇不缺失,而不是全靠楼主所述的语料库来提取词汇。比如,在输入法界,“大词库”一词是常用词汇,您从语料库提取的词汇不包含,是否需要额外加入一些常用词表?

想输入 大词库:
image

想输入 难不难,无
image
想输入 简拼 一词,无。

|—|—|—|
|件品|jian pin|3691|
|件拼|jian pin|3917|
|件频|jian pin|12906|
|健品|jian pin|92851|
|减贫|jian pin|27103|
|尖品|jian pin|2309|
|建品|jian pin|5032|
|简嫔|jian pin|1000|
|荐品|jian pin|3599|
|见品|jian pin|3935|
|间品|jian pin|5097|
|间拼|jian pin|2096|
|间频|jian pin|5675|

冒犯之处 不存在
image

小学课文有句古文,天下事有难易乎,不存在
image

候选项,不存在
image

絮絮叨叨,可能词不达意,冒犯之处,还请见谅,实在觉得楼主想法很好,项目应该实现得更好!

10 个赞

好东西
不好设置

您说的单字拼音存在不合理的问题,那是因为权威的资料这个字确实有这个读音,这是一个多音字。
是有一个多音字的拼音频率字典(unicode汉字kHanyuPinlu),其中的可以解决你提到的常见的字相对罕见的拼音,这个数据并不全面,所以没有采纳。

你提到的词语拼音不准确现象,那大部分是在262万的词条数据下的不足,如果升级到2471万的词库,这种不准确的现象会大大减少。

下面,就您提到的不准确的词语逐一在2471万的词库重新检验。

1 个赞

您应该安装 2471万词库增强包。

vj9JJJ.png

vj9MLV.png

vj9lZT.png

vj91dU.png

vj93oF.png

vj9Gi4.png

vj9YW9.png

vj9tzR.png
vj9UQ1.png
vj90eK.png
vj9dL6.png
vj9BdO.png
vj9DoD.png
vj9sFe.png
vj9yJH.png
vj96Wd.png

词库升级到10倍后,歇后语正确的汉字出现
重码排序第八

每页排序第八
次哭确实比词库流行
实现得 排名第19,前面的词语按照语料库的统计更为常见
因为得 这个汉字存在拼音冗余,所以你可以用 shixiandei 打出这个词语。

在使用现代汉语词典的拼音库缩减冗余的拼音时,采取比较保守的做法,当时因为“得”的拼音比较复杂,对于这个多音字一律使用暴力穷举的方案。

命令行排名第二

大词库并不是高频词

拆分成da’ciku ,次哭 的频率高于词库,因此看到这个奇怪的词语。

如果词库索引上升到64GB,会有的“大词库”这个词语的。

下面的例子不一一列举了。

鸿雁输入法不能做到百分之百涵盖所有词汇,但可以涵盖绝大部分词汇

2471万根据笔者推测是一个介于有序与无序之间的临界值。以上的例子应该会佐证这一观点。

1 个赞
  1. 我上面测试的时候,确实没有用2471万词库增强包。由于能力和时间有限,还没有折腾好2471万词库增强包,惭愧。

  2. 次哭 的词频为什么比 词库 的词频高?是因为您使用的算法?那算法合理么?对一般使用者的输入效率而言,次哭比词库的词频高,有什么实际的益处么?另外,如果在搜索引擎分别搜索两个词,显然 词库 的词频高。这如何解释?按照您算法严格整理出的词频,是不是需要人工干预调整?引用我上面帖子中的一句话,

“从语料库取得的字频和词频,可以直接用作输入法词库的字频和词频吗? 窃以为不可以”

vj9BdO

  1. 即使 次哭 的词频高,但感觉实际上 词库 一词更常用,次哭甚至不是词,貌似其他输入法也很少将其收入词库。

  2. @6lj6 "鸿雁更多的是提供巨量的句子智能联想”,非常同意!鸿雁词库的妙处多多。可惜单字和词语词频太不合理,难以使用。

  3. 关于单字字频,楼主说,“您说的单字拼音存在不合理的问题,那是因为权威的资料这个字确实有这个读音,这是一个多音字。是有一个多音字的拼音频率字典(unicode汉字kHanyuPinlu),其中的可以解决你提到的常见的字相对罕见的拼音,这个数据并不全面,所以没有采纳”。即使不全面,也可以用下,这样就基本满足大部分普通人的需求;另外词语词频,也需要调整。字频和词频调整一下,鸿雁输入法就可以用在日常生活和生产环境了。否则目前的词库虽然很大、很高尚,但实际很难用。不知有多少看官愿意在日常生活和工作中使用目前的鸿雁输入法?楼主请调整一下单字和词语频率,这应该是举手之劳,这样普通网友就可以幸福地用上这个输入法了,窃以为这是紧要的任务;以后您可以再做其他调整。

  4. 上贴楼主所发的每个截图中,很多地方可以看出,各个词语下面词频有很多不合理之处。比如想输入 每页 这个词,美也、妹也、梅耶等词都排在前面;这样是明显地不合理的。另外,重码 一词,也有同样的问题。
    vj9lZT vj9MLV

7.楼主说“大词库并不是高频词”,所以未收录。这恐怕说服力很小吧?楼主词库收录了很多稀有罕见的词,偏偏不收录 大词库 一词;小词库,简拼,这两个词也没有收录。混迹于论坛、倒腾输入法的网友,谁没有接触过 大词库 一词?楼主的语料库,选词方法,算法,是不是需要调整?

1 个赞