土法炼钢与"1368个单词就够了"背后的原理

昨天发现了python的nltk(自然语言处理包), 我试着用它分割了下单词, 利用其中的wordnet判断了下单词.

对比我之前手写的脚本, 那完全就是土法炼钢 :cold_face:这个包里提供了更多更好的分词器, 分句器…

另外, 想起来前几天不是有坛友推荐过wordnet这个语料库吗, 当时嫌数据库里"信息太多", 看一眼就没管. 这回才发现nltk里的wordnet借助那些"信息", 能计算词性, 近反义词, 单词相似度, 上下位词.

这样不就可以对单词根据词性, 近反义词, 词义相似度分组吗? :heart_eyes:

另外, 它还能显示上下位词, 比如animal 就是dog的上位词, 而Labrador就是dog的下位词. 在"1368个单词就够了"这本书里, 作者就是介绍了1368个上位词.

那用wordnet完全可以自己统计出一份上位词列表和具有包含关系的动词列表. :thinking:

3 Likes

这些词典天天用发明的新词很利于市场营销,但阻碍读者对新知识点和旧知识点体系的融会贯通。

近义词:就是这个词本身所服务的目标、功能相近的其他表达。
上位词:就是抽象的分类的不同层级、信息集合的共性嵌套的不同层级。就是JS中的对象的包裹原型链。

这样有2个种类类型的分类,可以有多个数量的分类。你提的动词的共性继承分类是前一个,而包含关系,是指包含什么?事物本身的共性继承树,还是空间组成包含关系,还是功能的一对多分类的包含关系?

楼主有空一定要给我讲讲呀,你的语言风格,信息密度有点高,我好久不读硬书了,好难理解 :laughing:

1 Like

对哦,这个可以做成词典啊。

1 Like

哇,连蕴含关系都有,你发现了个好宝贝啊。

我看了 wordnet, walk中 的 troponym 有这个 step。这么好的词典,不知道论坛怎么没人惦记呢。

这个nltk 的数据大于 wordnet ?

没见有人整理成mdx啊

6兄说过wordnet 现有的mdx版本过时了。他期待有人更新新版的哈哈哈,我是不期待啦:smoking:,没到他那个水平