鸿雁拼音输入法在最新的评测中取得准确率全球第二的好成绩

hongyan30 · 2022 年10 月 3 日 01:52

这个没关系

四川省正确的拼音是有的

前面的版本

除了都市大都首都都督

其他的都一律改为dou

这个属于过度优化了

都江堰

还有很多的地名都的拼音都是du

hongyan30 · 2022 年10 月 3 日 01:53

这个码表把成都都江堰拼音改正一下就可以了

hongyan30 · 2022 年10 月 3 日 02:13

鸿雁拼音分词版和轻量版原始码表.7z
这个是更正后的版本

Vim · 2022 年10 月 3 日 02:23

请问这两个版本的主要区别是？

以及，这两个版本是否是 2022-09-17发布的“扩大与鸿雁2700万词库取交集的的词库，包括高质量的标准词库和权威的中文词向量库” 的升级版？

hongyan30 · 2022 年10 月 3 日 02:29

轻量版：增强版的缩减版本，主要是机械分词

分词版：文艺版的缩减版本，主要来源是各个分词数据，属于人工筛选过的词组，只不过按照5.14亿个机械分词的词频数据筛选，没有机械分词词频数据的直接删除，相对低频的也删除，多个分词数据得票率低的也删除

Vim · 2022 年10 月 3 日 02:30

这是轻量版吧？

hongyan30 · 2022 年10 月 3 日 02:35

是的，搞错了

knetxp · 2022 年10 月 3 日 02:47

看起来不错，只可惜不能即装即用，各种操作过于复杂。

hongyan30 · 2022 年10 月 3 日 02:50

windows版

1 先卸载旧版本的鸿雁输入法和小狼毫输入法
2 安装vc 2015运行库，目前不支持win 11,在win 7 32bit、win 7 64bit、win 10 64bit均可正常运行。
3 安装“鸿雁输入法6.0精简版.exe”到c盘默认位置。这个安装包有各种输入法方案，不过只包含单字的码表。选择你需要使用的输入法方案，生成最小的词库索引。
4 安装“Windows版_鸿雁输入法v6.0预编译词库索引(拼音、五笔)_包含2916万词语.exe”，使用词库预编译索引，替换词库索引。
5 部分电脑需要重启操作系统才能正常使用

其实也不算复杂，是麻烦了一些

knetxp · 2022 年10 月 3 日 02:51

其他输入法都是一步就搞定了，哪个输入法能做到这么繁琐的步骤？
一个准确性全球第二的输入法，市场占有率有多少？主要原因是什么?

hongyan30 · 2022 年10 月 3 日 03:00

根据马斯克倡导的第一性原理，其实吧，使用时候的流畅度准确度才是最重要的。
至于名声、市场占有率那些都是次要的

只要参与的人足够多，这些都不是问题

Vim · 2022 年10 月 3 日 05:39

这个版本与之前分享的鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案.7z 差别还是挺大的：

这里的分词版，长词条占比比较多，如果删除单字和7个字以上的词条，体积只有原来的1/10。
全拼v0.2版本，短词条占比比较多，有大量的组词，如“一个老和尚”等。

有优先推荐或场景使用建议吗？

hongyan30 · 2022 年10 月 3 日 06:04

腾讯词库未必是准确的，只是深度学习的结果。

至于7个字以上的短语，确实在概率上一部分是高于两个和三个字的词语的。

这里的缩减版是为了控制在总数据量在260万条以内，对词语的频率选择一个边界，最长的词语是16个字。

一个词库的高质量和低质量分水岭，应该不是300万，应该是1000万左右

Vim · 2022 年10 月 3 日 06:15

发现机械分词的长词条有很多如“华人民共和国国家卫生和计划生育委”等的词汇，可否通过分步骤处理来避免此类情形：

先集中优化处理2-5字的短词条，且尽量是高质量的有具体语义的词汇。
在此基础上再处理长词条，但要求但凡能匹配上述短词条的，不得拆分。

这样好像可以极大减少冗余词条。不知道技术上是否可行，仅供参考。

hongyan30 · 2022 年10 月 3 日 06:31

感觉和概率上是两回事

他看中华人民共和国国家卫生和计划生育委

究竟该怎么拼凑出最准确语句呢？

这个时候，那些看起来不完整的词语频率数据就可以发挥作用了。

hongyan30 · 2022 年10 月 3 日 06:34

提高准确率有三种方法

扩大空间，包含冗余数据
扩大时间，增加算法复杂度
改进算法质量，极度优化数据结构

显然，第一种办法是最简单有效的方法

ad困困 · 2022 年10 月 5 日 09:07

以后更新可以单独提供此码表更新，感觉分词版不错啊，二千万词库就算了

etanalyst · 2022 年10 月 5 日 13:31

附议，老电脑带不动啊

hongyan30 · 2022 年10 月 5 日 13:54

内存少一点，260万的词库索引可能无法编译成索引的

ad困困 · 2022 年10 月 6 日 01:37

和电脑老旧没关系，内存4g以上都可以生成索引的把，至少不超过400万的词库就不错了，太大没意义，冗余数据太多了