最近使用信息论的最大熵来分词
参考
http://www.matrix67.com/blog/archives/5044
文中提到的内部文字凝聚度失效了
比如 我们 是由 我 和 们 组成
计算词语的频率 和两个单字 频率乘积
两个数值的比值 可以获得联合熵这样的数值
可是真实的情况是,有时候有效的词语频率反而比单字频率乘积还要低,按照理想的情况应该高才对,联合熵失效。
可通过计算 我们 这样的词语两边其他字的概率分布,获得以这个词语的边缘熵
熵值越大,说明词语两边的无序度越大。
如果以边缘熵的数值为分界,筛选合格的词语
边界值大了,漏掉不少词语。
边界值小了,错误的词语增多。
握的 大自 这样的语义学上不合格的词语,边缘熵却很高
看来企图依靠机器自动分词,没有人工干预,想获得完美的效果是几乎不可能的。或许有技术上的解决方案,也不是我这个段位能想到的。
如果是大厂,有大量人工筛选,会大大提高分词质量。
对于个人开发者,制作中文分词库
看来目前机械分词 +开源中文分词库 + 梯度下降算法获得新词 是比较有效的分词实现方式。