鸿雁输入法——整句输入法中一颗冉冉升起的新星

G8tVRaREgbTrUy9xLnhX · 2022 年12 月 5 日 08:55

另外还有一点我比较好奇，你这都弄了350GB的语料库了，都不能判断出来"呀"好像更常用一点吗？我在虚拟机里装了讯飞输入法，它的第一个也是"呀"。

G8tVRaREgbTrUy9xLnhX · 2022 年12 月 5 日 08:58

你说的这个是搜狗的单机版（非云输入）输入法么？搜狗的云数输入法我感觉几乎没有什么错误，它这个是怎么做的呀？

hongyan30 · 2022 年12 月 5 日 16:56

经过c++优化后，目前需要分析的语料库可以在2天内跑完。

我觉得吧，这个 “呀”，这些输入法可能是人工干预的结果，也可能是算法分析的结果。

这里想到一个算法来解决单字的词语候选排序的问题，类似数学上的夹逼法则
首先筛选处由标点符号两边包围的独立汉字，然后频率分析
。见《
’中。
”和“
”和“
”和“
”和“
”和“
，就“
“用”
“用”
》时，
“要”
》时，
》和《
”中，
”和“
》中。
，在“
”和“
“木”
”呢？
“论”
“专”
单字组成的句子，ya的同音词呀排第一位

hongyan30 · 2022 年12 月 5 日 17:26

所谓的云，应该是用户的输入习惯选择构成的比较庞大的数据库

就是你在输入这个拼音之前已经有人做出选择了

我还不信搜狗有非常牛逼的分词算法。我亲身实践，对比各大开源词库，才知道中文分词难度非常高。基本是主流的分词软件词库都有不少错误。

搜狗被腾讯收购之后，腾讯现在开放一个中文分词向量，根据我的分析，原来预先的分词还是来自开源的分词的数据。这个数据只是提供了一个更大规模的词语相似度数据，并没有切实提高分词的质量

云输入法，应该是群众输入法才对

G8tVRaREgbTrUy9xLnhX · 2022 年12 月 6 日 13:37

哦哦，有道理！
技术方面我不懂，只能表示支持了！你有没有什么赞赏渠道之类的，我捐助一点。
希望能早日推出更好用的版本，哈哈，加油啊！

hongyan30 · 2022 年12 月 6 日 19:56

这个纯粹是我个人兴趣开发，目前没有盈利的打算。

自然码，智能狂拼，黑马神拼这种付费销售的没有一家坚持下来。

如果国内付费意识的人再多一点，这些产品当时应该可以存活下来。

iiieg · 2022 年12 月 7 日 05:55

请问网上流传的六千万词库质量如何？

hongyan30 · 2022 年12 月 7 日 10:50

下载看了一下，那个主要是搜狗输入法的细胞词库

ad困困 · 2022 年12 月 8 日 03:20

那来的六千万词库？我又用回搜狗了，rime用了段时间不用了感觉不咋样，搜狗默认的状态下输入效果都不错啊

zheshijie · 2022 年12 月 8 日 09:02

大神，个人对古文的词频数据很感兴趣，但是技术有限，大规模数据处理不来，能否烦请大神跑一个古文数据（比如殆知阁），如果麻烦就算了

hongyan30 · 2022 年12 月 8 日 09:34

殆知阁数据我跑完了

殆知阁数据有个缺点是有的文章全篇下来没有标点，这对于16个汉字长度的词语会带来大量垃圾数据，所以分析的时候把长度过长的行数给剔除了

zheshijie · 2022 年12 月 8 日 09:49

可否单独分享这个的词频数据，感谢。
公开的古文数据库似乎都有这个现象，这一点没办法，我比较介意的倒是它全部转成简体，肯定带来了很多问题。

hongyan30 · 2022 年12 月 8 日 10:08

这是殆知阁的自动分词数据分词，第一列是词频，第二列是词语独立性打分

600多兆，2876万个词语

zheshijie · 2022 年12 月 8 日 10:40

好的，非常感谢

G8tVRaREgbTrUy9xLnhX · 2022 年12 月 8 日 13:14

现在有计划下一次什么时候更新输入法吗？

hongyan30 · 2022 年12 月 8 日 20:24

现在使用信息论自动分词把词语数量从机械分词的5.14亿降到6000万，6000万词语中包含的有效的词语效果也比较满意。

现在面临的问题是如果把这6000万词语进一步缩减，如何进一步剔除废词，冗余的词语，这个让人头大。

这个问题解决了，就可以发布新版了

iiieg · 2022 年12 月 9 日 04:56

Hankcs分享的词库，不过处理完去重后其实只有一千多万

G8tVRaREgbTrUy9xLnhX · 2022 年12 月 9 日 08:08

能不能查看每个词在所有语料库内容中出现的次数，比如，小于3，就认为是垃圾词汇。

hongyan30 · 2022 年12 月 9 日 22:37

这个方案是可以过滤一些低频词

的智慧和
对全球
的执着
型男
唯美
美那子
铁胆庄
城与
山镇
一笑
胡益华的
华葢
已经习惯了
悲愤
两件
惟有
复发
变成了一
打麻将
良知
长期以来
秀芳与
莫名其妙
瑟丹
石上
提供了一种
花心
美帝国主义者的
入口的
诗苹
张扬子
住那
文本的
人仍然
被当做
是你不
濂斤紝
医生帮我看看
多高
孙羿
苦瓜
互联网金融
燕支付

这里面的词语频率不低，有的词语语义上的划分质量也比较高

那些词频比较高，信息论上看似合格，但在语义上不合格的词语，比较难以剔除

iiieg · 2022 年12 月 10 日 06:35

保留也可以吧，词频给低一些