WordNet 的mdx,这里很少有人讨论。论坛有3.1可下载:
https://downloads.freemdict.com/尚未整理/共享2020.5.11/content/1_english/z_dictionary_others/WordNet3.1/
估计很多人都装过,但由于其独特性,真正会把它作为日常使用的人可能极少。
WordNet 的独特性体现在:其设计目的主要是为自动文本分析、知识图谱服务的,现在的神经网络、深度学习、AI训练也都用的上,每个单词义项后面都有不同的特征值,可以用于计算。
维基百科介绍:
WordNet发展概况:
现有的WordNet mdx词典中的类别充满专业术语,普通人不明所以,很难上手。
即便看了术语Glossary,熟悉了专业术语,看上去这本mdx除了有独特类别,比如上义词、下义词有需要时可以看看,似乎就是词汇的集合,与各大 thesaurus 词典拉不开很大区别。
不久前看了一个B站的演示,
图形化展示了 WordNet 一个亮点,就是两个词之间义项的对应关系,真正做到了义项到义项,而不是单词到单词。
而很多 thesaurus 词典的同义词集合,就是单词到单词。很多词是一词多义,同义词之间的跳转是很难去一一匹配义项的。
到 WordNet 官网查词界面试试查词:
查词后把 Display Options 改为 Show Senses Numbers,这样就能明确知道相关词的义项。蓝色有链接的都可以点击打开。
官网这个查词,主线是Synset,就是每一行开头的S,这个S同一页面可以一直点到上下级(上义词下义词)的精确义项,或是某种类别的归属,读来对思维的扩展有一种独特的乐趣。
而现有的 WordNet mdx,所有单词义项信息都丢失了,单词跳转和普通的thesaurus词典没什么区别,同义词的精确义项信息只能自己去摸索匹配。下面分别是mdx的界面和官网的界面:
另外官网的查词结果页面似乎也和以前不太一样。首先官网 Glossary 被删了,而mdx 在每个单词页面右下角可以点进去看 WordNet Glossary,可以知道每个专业术语的意思。这一点还得感谢mdx留下了这些术语解释。
对比一下可以看到,释义例句相同,但相关类别显示有增减,比如官网 abandon#4, give up#10 (stop maintaining or insisting on; of ideas or claims) 义项下有verb group,而mdx 没有。又如查一些名词有sister term,这个mdx 也没有。
去查mdx的Glossary,没看到这些新增类别的描述,好在其字面意思通俗易懂,问题不大。
mdx 如果没有上义词,Inherited Hypernyms会显示自身,官网没有,这个处理官网合理。
mdx 的义项编号是不同词性一起使用css排编号,这样就和官网有些地方不一致,比如 abandon,官网是名词动词分开排,mdx合在一起,所以官网的动词abandon#4,在mdx中对应的是编号6。
另外需要注意的是 WordNet 可能为了方便单词的数值计算原因,Synset 里面的同义词相关义项都共享一个释义,比如 abandon#2 下sister term 里面的次级:ardor#3, ardour#3, fervor#1, fervour#2, fervency#1, fire#6, fervidness#1 这些词对应的义项释义都是 (feelings of great warmth and intensity)。可能会有人对此不认可,但官网查词页面这种对不同级次义项释义的快速呈现来看,并有没什么大问题。 具体进到每个单词里面看,有其他义项来区分意义的差别,这里就不一一举例了,感兴趣可以自己去比较一下。这可能也是 WordNet 的义项要比 thesaurus词典、甚至比一些普通释义词典多的原因。
当A的义项对应到B义项,而不是简单粗暴的A对应到B,整个语义网络的信息就原子化精确化了。 WordNet 任何两个词之间都有义项关联,可能是同义反义,可能是类别归属,可能是上义下义,总有一种联系存在与你我之间。通过 WordNet 官网上面词典查词实例,可以发现浏览语义网络的乐趣。这个应该是普通人使用 WordNet 的价值所在。
一些期待:
WordNet 的mdx 很久没更新了,看看有没有技术高手能更新一版。
当然像官网这样同一页面不断点击S,呈现下级的方式,mdx实现起来可能比较困难,也许要用到某种动态加载模式(比如牛津同义词那个动态加载词典)。
可以简单一点,现有mdx的一些缺点弥补点就好,比如所有类别里的单词增加对应的义项编号信息,这样跳转查阅时知道是哪一项。或者再增加一点难度,点击时能跳转到该义项(欧陆手机版有浮动窗口,看完即关,比跳转效果好)。对有意尝试的朋友,在此先说声谢谢。