土法炼钢与"1368个单词就够了"背后的原理

昨天发现了python的nltk(自然语言处理包), 我试着用它分割了下单词, 利用其中的wordnet判断了下单词.

对比我之前手写的脚本, 那完全就是土法炼钢 :cold_face:这个包里提供了更多更好的分词器, 分句器…

另外, 想起来前几天不是有坛友推荐过wordnet这个语料库吗, 当时嫌数据库里"信息太多", 看一眼就没管. 这回才发现nltk里的wordnet借助那些"信息", 能计算词性, 近反义词, 单词相似度, 上下位词.

这样不就可以对单词根据词性, 近反义词, 词义相似度分组吗? :heart_eyes:

另外, 它还能显示上下位词, 比如animal 就是dog的上位词, 而Labrador就是dog的下位词. 在"1368个单词就够了"这本书里, 作者就是介绍了1368个上位词.

那用wordnet完全可以自己统计出一份上位词列表和具有包含关系的动词列表. :thinking:

3 个赞

对哦,这个可以做成词典啊。

1 个赞

6兄说过wordnet 现有的mdx版本过时了。他期待有人更新新版的哈哈哈,我是不期待啦:smoking:,没到他那个水平