将作大匠
1
这是我去年年尾疫情期间求助业内技术达人(Heinrich,一个自然语言处理QQ群结识的小友,主业软件开发,好学深思,在nlp这块也算小有所通),利用我预定的49万词表,一一去“撞”腾讯AI实验室公开分享的200维1200万中文词向量数据(数据获取地址:https://ai.tencent.com/ailab/nlp/en/download.html) 制作而成的简易近邻词汇映射集。腾讯实验室构造的中文1200万词向量数据,相比于旧有的800万词向量数据基础上,选用的训练数据规模进一步扩大,采取的训练算法进一步优化,在覆盖面、准确性上有了较大的改善。我这里所谓的“近邻词汇”,袭用的是近邻词汇检索系统开发人明达君的叫法( 参看:https://tool.mingdawoo.com/。 在此一并向明达君表示感谢,承他之惠,帮我优化了提取800万词-词表映射集的速率),是指语义构造特征相似的词,它指向的可能是同义词、近义词,也可能是同族词、同类词,还可能是反义词、同位词,等等,不一而足,不能与同/近义词划上等号。在此需要说明的是,我提取的映射集,一个词对应的是20个近邻词集合,按期语义相似度由高到低、从左到右进行线性排列。在月初我又利用chatgpt编辑代码,将两方数据合并为一,重合词、差异词一目了然,但囿于所学有限,代码没办法进一步优化,在A\B\C三个集合中词序被打乱了,有代码基础的可以帮我优化下。
【网盘链接地址】
链接:FreeMdict Cloud
【相关截图】
7 Likes
hua
2
可否讲解一下它的使用场景?
以及 TXT 文件可以打包成压缩包,或许能够减少很多体积,便于传输。
以及代码优化的目标是什么,需求是什么?
将作大匠
3
它的使用场景跟修辞辞书《同义词词林》差不多,可以为诸如写手、译者、编者之类的案头工作者提供一个随取随有的“武库”,在选词造语上触类旁通,借一得十。就是这个简易映射集源词与联想词/近邻词的语义联系并不像词林中同一词簇的联系那么紧密。优化目标就是进行整序,三个中的重合集【】差异集{}按照原本1200万词【A文档】的同一序列中的近邻词汇排列顺序进行排列,差异集()按照原本800万词【B文档】的同一序列中的近邻词汇排列顺序进行排列,将语义构造特征趋同度更高的近邻词提置前头,而不是乱序分布。
将作大匠
5
我看了下,他的相似词典像是多部词典内容拼合而成的,没有标明数据来源用起来总觉得有点心慌慌 还有我简略比照了下“坚强、肃静、勤奋”的同义/近义词群,《同义词词林》总括的词头明显比阿弥陀佛君相似词典准确、繁多
链接被举报了?
这都是中文的,有没有英文版的临近向量词集呢?
将作大匠
9
将作大匠
11
hua大,为什么我帖子上传压缩文档试了好几次都失败,求助
hua
12
很欣赏楼主「近邻词汇」的概念发想,确实是可以作为文字工作者案头的武库。
无奈不谙代码,未能依楼主构想对合并的文档优化。
谨将有序的A文档(1200万词)、B文档(800万词)转成mdx,加上跳转,附上简易css,以献微芹。
效果如下:
档案谨附於下:
https://cloud.freemdict.com/index.php/s/3JXEK3oLfb373K7
https://cloud.freemdict.com/index.php/s/e8tZwWKokbQebbS
https://cloud.freemdict.com/index.php/s/BT3WqfGwAeycyng
可与《同义词词林》或佛大《相似词词典》并参,相得益彰。
感谢楼主将作大匠君的付出!
2 Likes
mdx使用方便,非常好!只是不知两个文件的区别到底何在?似有重叠,又有不同。
将作大匠
17
嗯嗯,确实,可以参综多部类义辞书一起比照着看,后期过稿斟酌语句,打磨文稿的时候可以用上
2 Likes