鸿雁拼音输入法在最新的评测中取得准确率全球第二的好成绩

这个没关系

四川省正确的拼音是有的

前面的版本

除了 都市 大都 首都 都督

其他的都 一律改为dou

这个属于过度优化了

都江堰

还有很多的地名 都的拼音都是du

1 个赞

这个码表把成都都江堰拼音改正一下就可以了

1 个赞

鸿雁拼音分词版和轻量版原始码表.7z
这个是更正后的版本

2 个赞

请问这两个版本的主要区别是?

以及,这两个版本是否是 2022-09-17发布的“扩大与鸿雁2700万词库取交集的的词库,包括高质量的标准词库和权威的中文词向量库” 的升级版?

轻量版:增强版的缩减版本,主要是机械分词

分词版:文艺版的缩减版本,主要来源是各个分词数据,属于人工筛选过的词组,只不过按照5.14亿个机械分词的词频数据筛选,没有机械分词词频数据的直接删除,相对低频的也删除,多个分词数据得票率低的也删除

1 个赞

这是轻量版吧?

1 个赞

是的,搞错了

1 个赞

看起来不错,只可惜不能即装即用,各种操作过于复杂。

windows版

1 先卸载旧版本的鸿雁输入法和小狼毫输入法
2 安装vc 2015运行库,目前不支持win 11,在win 7 32bit、win 7 64bit、win 10 64bit均可正常运行。
3 安装“鸿雁输入法6.0精简版.exe”到c盘默认位置。这个安装包有各种输入法方案,不过只包含单字的码表。选择你需要使用的输入法方案,生成最小的词库索引。
4 安装“Windows版_鸿雁输入法v6.0预编译词库索引(拼音、五笔)_包含2916万词语.exe”,使用词库预编译索引,替换词库索引。
5 部分电脑需要重启操作系统才能正常使用

其实也不算复杂,是麻烦了一些

其他输入法都是一步就搞定了,哪个输入法能做到这么繁琐的步骤?
一个准确性全球第二的输入法,市场占有率有多少?主要原因是什么?

根据马斯克倡导的第一性原理,其实吧,使用时候的流畅度准确度才是最重要的。
至于名声、市场占有率那些都是次要的

只要参与的人足够多,这些都不是问题

这个版本与之前分享的 鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案.7z 差别还是挺大的:

  1. 这里的分词版,长词条占比比较多,如果删除单字和7个字以上的词条,体积只有原来的1/10。
  2. 全拼v0.2版本,短词条占比比较多,有大量的组词,如“一个老和尚”等。

有优先推荐或场景使用建议吗?

腾讯词库未必是准确的,只是深度学习的结果。

至于7个字以上的短语,确实在概率上一部分是高于两个和三个字的词语的。

这里的缩减版是为了控制在总数据量在260万条以内,对词语的频率选择一个边界,最长的词语是16个字。

一个词库的高质量和低质量分水岭,应该不是300万,应该是1000万左右

发现机械分词的长词条有很多如“华人民共和国国家卫生和计划生育委”等的词汇,可否通过分步骤处理来避免此类情形:

  1. 先集中优化处理2-5字的短词条,且尽量是高质量的有具体语义的词汇。
  2. 在此基础上再处理长词条,但要求但凡能匹配上述短词条的,不得拆分。

这样好像可以极大减少冗余词条。不知道技术上是否可行,仅供参考。

感觉和概率上是两回事

他看中华人民共和国国家卫生和计划生育委

究竟该怎么拼凑出最准确语句呢?

这个时候,那些看起来不完整的词语频率数据就可以发挥作用了。

提高准确率有三种方法

扩大空间,包含冗余数据
扩大时间,增加算法复杂度
改进算法质量,极度优化数据结构

显然,第一种办法是最简单有效的方法

1 个赞

以后更新可以单独提供此码表更新,感觉分词版不错啊,二千万词库就算了

附议,老电脑带不动啊

内存少一点,260万的词库索引可能无法编译成索引的

和电脑老旧没关系,内存4g以上都可以生成索引的把,至少不超过400万的词库就不错了,太大没意义,冗余数据太多了