哪位大神帮忙把《中文词语搭配》库转换成mdx格式

发现这么好的库没人做,特来求助。
(链接:https://pan.baidu.com/s/1pC2EpFE6DLLx2z3piJUKsw)
提取码:bnp3

不太理解这是什么,还望加以解释。

计数器-打印	6
都是-用我	27
你走-为何	83
往来-单据	6
是有-多款	8
雪青-有	3
附近-结束	5
知道-火星	29
自己-十年前	8
政治-冲刺班	57
前台-核对	7
车次-日期	11
多层-豪华	3
体育-模拟	54
主题-国标	23
三是-创办	3
年初-积极	3
删除-文字	767
滁州-当天	23
婚庆-点评	3
不管-炒菜	7
百叶-豆腐	4
篇文章-文章	566
子时-前后	3
软件包-是否	3
路上-老张	6
分层-模型	26
工程技术-队伍	197
意义-坚持走	6
事都-开始	3
抗日-两部	15
日圆-将在	8
农机-加工	7
保卫处-总务处	8

原网站在这里,这个我也不太理解,可能前后词语有关系的。http://www.sogou.com/labs/resource/r.php

后面数字应该是前面搭配一起出现的次数

那你觉得这东西好在哪儿,做成词典有什么意义?我们可以通过查询这种基于次数的搭配学到什么?

可以把高频的搭配提取出来,查询某个词的时候,找到与这个词相关的很多词语。和英语搭配的用法类似。

有点类似于COCA,但是语料库的数据量和质量堪忧。

即使是COCA,有时其搭配看起来也很无厘头,这是它的规则引起的,比如:

the …of

再比如 be … since

这是给输入法、语言分析用的数据。。

1 个赞

我看隔壁有发这个……我还有一个词典和这个类似,它查询的是意义相关词,只是比较简陋。

这看起来也还不错啊

我倒不是说不能做成词典啦,只是这东西看起来有点,奇怪。

这些高频次的还是有关联的。可以作为联想词来查询。我构想的是想这样,做成词云,关键词大小按频率高低显示:image
(当然,不可能达到这个效果,类似的也行)

1 个赞

阿弥陀佛不是发了那么多汉语词典吗,要搭配可以用其中的现代汉语搭配词典、写作语库啊。说实话,这个基于杂乱的网络语库确实不适合语言学习或写作,正如该数据源定位说明一样,用于输入法、语音识别就好了

image

嗯,多谢提示,我去看看。