自制简易近邻词汇映射集（完成度85%）

将作大匠 · 2023 年4 月 15 日 14:04

这是我去年年尾疫情期间求助业内技术达人（Heinrich，一个自然语言处理QQ群结识的小友，主业软件开发，好学深思，在nlp这块也算小有所通），利用我预定的49万词表，一一去“撞”腾讯AI实验室公开分享的200维1200万中文词向量数据（数据获取地址：https://ai.tencent.com/ailab/nlp/en/download.html）制作而成的简易近邻词汇映射集。腾讯实验室构造的中文1200万词向量数据，相比于旧有的800万词向量数据基础上，选用的训练数据规模进一步扩大，采取的训练算法进一步优化，在覆盖面、准确性上有了较大的改善。我这里所谓的“近邻词汇”，袭用的是近邻词汇检索系统开发人明达君的叫法（参看：https://tool.mingdawoo.com/。在此一并向明达君表示感谢，承他之惠，帮我优化了提取800万词-词表映射集的速率），是指语义构造特征相似的词，它指向的可能是同义词、近义词，也可能是同族词、同类词，还可能是反义词、同位词，等等，不一而足，不能与同/近义词划上等号。在此需要说明的是，我提取的映射集，一个词对应的是20个近邻词集合，按期语义相似度由高到低、从左到右进行线性排列。在月初我又利用chatgpt编辑代码，将两方数据合并为一，重合词、差异词一目了然，但囿于所学有限，代码没办法进一步优化，在A\B\C三个集合中词序被打乱了，有代码基础的可以帮我优化下。
【网盘链接地址】
链接：FreeMdict Cloud

【相关截图】

hua · 2023 年4 月 15 日 14:22

可否讲解一下它的使用场景？

以及 TXT 文件可以打包成压缩包，或许能够减少很多体积，便于传输。

以及代码优化的目标是什么，需求是什么？

将作大匠 · 2023 年4 月 15 日 14:40

它的使用场景跟修辞辞书《同义词词林》差不多，可以为诸如写手、译者、编者之类的案头工作者提供一个随取随有的“武库”，在选词造语上触类旁通，借一得十。就是这个简易映射集源词与联想词／近邻词的语义联系并不像词林中同一词簇的联系那么紧密。优化目标就是进行整序，三个中的重合集【】差异集｛｝按照原本1200万词【A文档】的同一序列中的近邻词汇排列顺序进行排列，差异集（）按照原本800万词【B文档】的同一序列中的近邻词汇排列顺序进行排列，将语义构造特征趋同度更高的近邻词提置前头，而不是乱序分布。

aimdict · 2023 年4 月 15 日 22:46

阿弥陀佛制作的相似词典有些类似。【阿彌陀佛】相似词词典2021.9.9

将作大匠 · 2023 年4 月 16 日 02:15

我看了下，他的相似词典像是多部词典内容拼合而成的，没有标明数据来源用起来总觉得有点心慌慌还有我简略比照了下“坚强、肃静、勤奋”的同义/近义词群，《同义词词林》总括的词头明显比阿弥陀佛君相似词典准确、繁多

sculiuchang · 2023 年4 月 18 日 05:18

可以制作为mdx吗？

将作大匠 · 2023 年4 月 18 日 05:56

应该可以，不过我不知道怎么个搞法

sannuofy · 2023 年4 月 20 日 03:08

链接被举报了？
这都是中文的，有没有英文版的临近向量词集呢？

将作大匠 · 2023 年4 月 21 日 14:14

有啊，英文也有，链接地址这个试试腾讯AI Lab，自然语言处理(NLP)研究

dqg · 2023 年4 月 22 日 02:34

链接失效了，可以分享下新的链接吗，谢谢

将作大匠 · 2023 年4 月 22 日 12:29

hua大，为什么我帖子上传压缩文档试了好几次都失败，求助

hua · 2023 年4 月 22 日 12:51

网络不好？试试云盘： FreeMdict 网盘云盘

将作大匠 · 2023 年4 月 22 日 13:19

OK，明晚再试试

jerry502 · 2023 年4 月 24 日 14:14

很欣赏楼主「近邻词汇」的概念发想，确实是可以作为文字工作者案头的武库。

无奈不谙代码，未能依楼主构想对合并的文档优化。

谨将有序的A文档（1200万词）、B文档（800万词）转成mdx，加上跳转，附上简易css，以献微芹。

效果如下：

档案谨附於下：
https://cloud.freemdict.com/index.php/s/3JXEK3oLfb373K7
https://cloud.freemdict.com/index.php/s/e8tZwWKokbQebbS
https://cloud.freemdict.com/index.php/s/BT3WqfGwAeycyng

可与《同义词词林》或佛大《相似词词典》并参，相得益彰。

感谢楼主将作大匠君的付出！

将作大匠 · 2023 年4 月 25 日 09:31

感谢感谢()应该下了不少功夫吧，用心了用心了

aimdict · 2023 年4 月 25 日 11:26

mdx使用方便，非常好！只是不知两个文件的区别到底何在？似有重叠，又有不同。

将作大匠 · 2023 年4 月 25 日 11:28

嗯嗯，确实，可以参综多部类义辞书一起比照着看，后期过稿斟酌语句，打磨文稿的时候可以用上