中文分词的技术极限

最近使用信息论的最大熵来分词

参考
http://www.matrix67.com/blog/archives/5044

文中提到的内部文字凝聚度失效了

比如 我们 是由 我 和 们 组成
计算词语的频率 和两个单字 频率乘积
两个数值的比值 可以获得联合熵这样的数值

可是真实的情况是,有时候有效的词语频率反而比单字频率乘积还要低,按照理想的情况应该高才对,联合熵失效。

可通过计算 我们 这样的词语两边其他字的概率分布,获得以这个词语的边缘熵

熵值越大,说明词语两边的无序度越大。

如果以边缘熵的数值为分界,筛选合格的词语

边界值大了,漏掉不少词语。
边界值小了,错误的词语增多。

握的 大自 这样的语义学上不合格的词语,边缘熵却很高

看来企图依靠机器自动分词,没有人工干预,想获得完美的效果是几乎不可能的。或许有技术上的解决方案,也不是我这个段位能想到的。

如果是大厂,有大量人工筛选,会大大提高分词质量。

对于个人开发者,制作中文分词库

看来目前机械分词 +开源中文分词库 + 梯度下降算法获得新词 是比较有效的分词实现方式。

3 个赞

看不懂,dbq

1 个赞

熵是信息无序度的一种表达
熵的倒数可以看作压缩软件的压缩比

想通过熵一劳永逸解决中文分词问题,目前看来不太可能。

意思就是说根据语义学上的分析,可以建立一个文字上的元宇宙。

只要添加的规律足够多了,那么,这样就可以达到几乎百分之百的分词正确率。

那么语言上的人工智能就不是目前的小冰机器人了,可以媲美真人。

1 个赞

冒昧问一下帖主用的开源分词库是哪一个啊?我用来用去jieba最易入门,hanlp效果最理想

这些对于350GB的语料库还是太慢了
我这里初步加工使用的是暴力切割法

1 个赞

那我们没有可比性,我语料规模就一百多兆而已,后期还要进行人工干预,以求达到更为完美的分词结果