土法炼钢与"1368个单词就够了"背后的原理

舒服员 · 2022 年9 月 12 日 06:38

昨天发现了python的nltk(自然语言处理包), 我试着用它分割了下单词, 利用其中的wordnet判断了下单词.

对比我之前手写的脚本, 那完全就是土法炼钢这个包里提供了更多更好的分词器, 分句器…

另外, 想起来前几天不是有坛友推荐过wordnet这个语料库吗, 当时嫌数据库里"信息太多", 看一眼就没管. 这回才发现nltk里的wordnet借助那些"信息", 能计算词性, 近反义词, 单词相似度, 上下位词.

这样不就可以对单词根据词性, 近反义词, 词义相似度分组吗?

另外, 它还能显示上下位词, 比如animal 就是dog的上位词, 而Labrador就是dog的下位词. 在"1368个单词就够了"这本书里, 作者就是介绍了1368个上位词.

那用wordnet完全可以自己统计出一份上位词列表和具有包含关系的动词列表.

舒服员 · 2022 年9 月 12 日 09:42

对哦，这个可以做成词典啊。

mdict6 · 2022 年9 月 12 日 12:13

6兄说过wordnet 现有的mdx版本过时了。他期待有人更新新版的哈哈哈，我是不期待啦，没到他那个水平