自制简易近邻词汇映射集(完成度85%)

这是我去年年尾疫情期间求助业内技术达人(Heinrich,一个自然语言处理QQ群结识的小友,主业软件开发,好学深思,在nlp这块也算小有所通),利用我预定的49万词表,一一去“撞”腾讯AI实验室公开分享的200维1200万中文词向量数据(数据获取地址:https://ai.tencent.com/ailab/nlp/en/download.html) 制作而成的简易近邻词汇映射集。腾讯实验室构造的中文1200万词向量数据,相比于旧有的800万词向量数据基础上,选用的训练数据规模进一步扩大,采取的训练算法进一步优化,在覆盖面、准确性上有了较大的改善。我这里所谓的“近邻词汇”,袭用的是近邻词汇检索系统开发人明达君的叫法( 参看:https://tool.mingdawoo.com/。 在此一并向明达君表示感谢,承他之惠,帮我优化了提取800万词-词表映射集的速率),是指语义构造特征相似的词,它指向的可能是同义词、近义词,也可能是同族词、同类词,还可能是反义词、同位词,等等,不一而足,不能与同/近义词划上等号。在此需要说明的是,我提取的映射集,一个词对应的是20个近邻词集合,按期语义相似度由高到低、从左到右进行线性排列。在月初我又利用chatgpt编辑代码,将两方数据合并为一,重合词、差异词一目了然,但囿于所学有限,代码没办法进一步优化,在A\B\C三个集合中词序被打乱了,有代码基础的可以帮我优化下。
【网盘链接地址】
链接:FreeMdict Cloud

【相关截图】


7 Likes

可否讲解一下它的使用场景?

以及 TXT 文件可以打包成压缩包,或许能够减少很多体积,便于传输。

以及代码优化的目标是什么,需求是什么?

它的使用场景跟修辞辞书《同义词词林》差不多,可以为诸如写手、译者、编者之类的案头工作者提供一个随取随有的“武库”,在选词造语上触类旁通,借一得十。就是这个简易映射集源词与联想词/近邻词的语义联系并不像词林中同一词簇的联系那么紧密。优化目标就是进行整序,三个中的重合集【】差异集{}按照原本1200万词【A文档】的同一序列中的近邻词汇排列顺序进行排列,差异集()按照原本800万词【B文档】的同一序列中的近邻词汇排列顺序进行排列,将语义构造特征趋同度更高的近邻词提置前头,而不是乱序分布。

阿弥陀佛制作的相似词典有些类似。 【阿彌陀佛】相似词词典2021.9.9

我看了下,他的相似词典像是多部词典内容拼合而成的,没有标明数据来源用起来总觉得有点心慌慌 :laughing:还有我简略比照了下“坚强、肃静、勤奋”的同义/近义词群,《同义词词林》总括的词头明显比阿弥陀佛君相似词典准确、繁多 :joy:



可以制作为mdx吗?

应该可以,不过我不知道怎么个搞法 :joy:

1 Like

链接被举报了? :rofl:
这都是中文的,有没有英文版的临近向量词集呢?

有啊,英文也有,链接地址这个试试腾讯AI Lab,自然语言处理(NLP)研究

链接失效了,可以分享下新的链接吗,谢谢

hua大,为什么我帖子上传压缩文档试了好几次都失败,求助 :pray:

网络不好?试试云盘: FreeMdict 网盘 云盘

OK,明晚再试试

1 Like

很欣赏楼主「近邻词汇」的概念发想,确实是可以作为文字工作者案头的武库。

无奈不谙代码,未能依楼主构想对合并的文档优化。

谨将有序的A文档(1200万词)、B文档(800万词)转成mdx,加上跳转,附上简易css,以献微芹。

效果如下:





档案谨附於下:
https://cloud.freemdict.com/index.php/s/3JXEK3oLfb373K7
https://cloud.freemdict.com/index.php/s/e8tZwWKokbQebbS
https://cloud.freemdict.com/index.php/s/BT3WqfGwAeycyng

可与《同义词词林》或佛大《相似词词典》并参,相得益彰。

感谢楼主将作大匠君的付出!

2 Likes

感谢感谢(:slight_smile:)应该下了不少功夫吧,用心了用心了 :smile:

1 Like

mdx使用方便,非常好!只是不知两个文件的区别到底何在?似有重叠,又有不同。

嗯嗯,确实,可以参综多部类义辞书一起比照着看,后期过稿斟酌语句,打磨文稿的时候可以用上

2 Likes