中文分词的技术极限

hongyan30 · 2022 年11 月 5 日 11:19

最近使用信息论的最大熵来分词

文中提到的内部文字凝聚度失效了

比如我们是由我和们组成
计算词语的频率和两个单字频率乘积
两个数值的比值可以获得联合熵这样的数值

可是真实的情况是，有时候有效的词语频率反而比单字频率乘积还要低，按照理想的情况应该高才对，联合熵失效。

可通过计算我们这样的词语两边其他字的概率分布，获得以这个词语的边缘熵

熵值越大，说明词语两边的无序度越大。

如果以边缘熵的数值为分界，筛选合格的词语

边界值大了，漏掉不少词语。
边界值小了，错误的词语增多。

握的大自这样的语义学上不合格的词语，边缘熵却很高

看来企图依靠机器自动分词，没有人工干预，想获得完美的效果是几乎不可能的。或许有技术上的解决方案，也不是我这个段位能想到的。

如果是大厂，有大量人工筛选，会大大提高分词质量。

对于个人开发者，制作中文分词库

看来目前机械分词 +开源中文分词库 + 梯度下降算法获得新词是比较有效的分词实现方式。

mdict6 · 2022 年11 月 5 日 11:32

看不懂，dbq

hongyan30 · 2022 年11 月 5 日 11:36

熵是信息无序度的一种表达
熵的倒数可以看作压缩软件的压缩比

想通过熵一劳永逸解决中文分词问题，目前看来不太可能。

hongyan30 · 2022 年11 月 5 日 12:08

意思就是说根据语义学上的分析，可以建立一个文字上的元宇宙。

只要添加的规律足够多了，那么，这样就可以达到几乎百分之百的分词正确率。

那么语言上的人工智能就不是目前的小冰机器人了，可以媲美真人。

将作大匠 · 2022 年11 月 5 日 15:59

冒昧问一下帖主用的开源分词库是哪一个啊？我用来用去jieba最易入门，hanlp效果最理想

hongyan30 · 2022 年11 月 5 日 19:07

这些对于350GB的语料库还是太慢了
我这里初步加工使用的是暴力切割法

将作大匠 · 2022 年11 月 6 日 03:03

那我们没有可比性，我语料规模就一百多兆而已，后期还要进行人工干预，以求达到更为完美的分词结果