昨天发现了python的nltk(自然语言处理包), 我试着用它分割了下单词, 利用其中的wordnet判断了下单词.
对比我之前手写的脚本, 那完全就是土法炼钢 这个包里提供了更多更好的分词器, 分句器…
另外, 想起来前几天不是有坛友推荐过wordnet这个语料库吗, 当时嫌数据库里"信息太多", 看一眼就没管. 这回才发现nltk里的wordnet借助那些"信息", 能计算词性, 近反义词, 单词相似度, 上下位词.
这样不就可以对单词根据词性, 近反义词, 词义相似度分组吗?
另外, 它还能显示上下位词, 比如animal 就是dog的上位词, 而Labrador就是dog的下位词. 在"1368个单词就够了"这本书里, 作者就是介绍了1368个上位词.
那用wordnet完全可以自己统计出一份上位词列表和具有包含关系的动词列表.