这个没关系
四川省正确的拼音是有的
前面的版本
除了 都市 大都 首都 都督
其他的都 一律改为dou
这个属于过度优化了
都江堰
还有很多的地名 都的拼音都是du
这个没关系
四川省正确的拼音是有的
前面的版本
除了 都市 大都 首都 都督
其他的都 一律改为dou
这个属于过度优化了
都江堰
还有很多的地名 都的拼音都是du
这个码表把成都都江堰拼音改正一下就可以了
鸿雁拼音分词版和轻量版原始码表.7z
这个是更正后的版本
请问这两个版本的主要区别是?
以及,这两个版本是否是 2022-09-17发布的“扩大与鸿雁2700万词库取交集的的词库,包括高质量的标准词库和权威的中文词向量库” 的升级版?
轻量版:增强版的缩减版本,主要是机械分词
分词版:文艺版的缩减版本,主要来源是各个分词数据,属于人工筛选过的词组,只不过按照5.14亿个机械分词的词频数据筛选,没有机械分词词频数据的直接删除,相对低频的也删除,多个分词数据得票率低的也删除
是的,搞错了
看起来不错,只可惜不能即装即用,各种操作过于复杂。
windows版
1 先卸载旧版本的鸿雁输入法和小狼毫输入法
2 安装vc 2015运行库,目前不支持win 11,在win 7 32bit、win 7 64bit、win 10 64bit均可正常运行。
3 安装“鸿雁输入法6.0精简版.exe”到c盘默认位置。这个安装包有各种输入法方案,不过只包含单字的码表。选择你需要使用的输入法方案,生成最小的词库索引。
4 安装“Windows版_鸿雁输入法v6.0预编译词库索引(拼音、五笔)_包含2916万词语.exe”,使用词库预编译索引,替换词库索引。
5 部分电脑需要重启操作系统才能正常使用
其实也不算复杂,是麻烦了一些
其他输入法都是一步就搞定了,哪个输入法能做到这么繁琐的步骤?
一个准确性全球第二的输入法,市场占有率有多少?主要原因是什么?
根据马斯克倡导的第一性原理,其实吧,使用时候的流畅度准确度才是最重要的。
至于名声、市场占有率那些都是次要的
只要参与的人足够多,这些都不是问题
这个版本与之前分享的 鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案.7z 差别还是挺大的:
有优先推荐或场景使用建议吗?
腾讯词库未必是准确的,只是深度学习的结果。
至于7个字以上的短语,确实在概率上一部分是高于两个和三个字的词语的。
这里的缩减版是为了控制在总数据量在260万条以内,对词语的频率选择一个边界,最长的词语是16个字。
一个词库的高质量和低质量分水岭,应该不是300万,应该是1000万左右
发现机械分词的长词条有很多如“华人民共和国国家卫生和计划生育委”等的词汇,可否通过分步骤处理来避免此类情形:
这样好像可以极大减少冗余词条。不知道技术上是否可行,仅供参考。
感觉和概率上是两回事
他看中华人民共和国国家卫生和计划生育委
究竟该怎么拼凑出最准确语句呢?
这个时候,那些看起来不完整的词语频率数据就可以发挥作用了。
提高准确率有三种方法
扩大空间,包含冗余数据
扩大时间,增加算法复杂度
改进算法质量,极度优化数据结构
显然,第一种办法是最简单有效的方法
以后更新可以单独提供此码表更新,感觉分词版不错啊,二千万词库就算了
附议,老电脑带不动啊
内存少一点,260万的词库索引可能无法编译成索引的
和电脑老旧没关系,内存4g以上都可以生成索引的把,至少不超过400万的词库就不错了,太大没意义,冗余数据太多了