语义检索:无需关键字词,直接语义匹配

用模型将自然语言生成高维向量,这里以成语的释义为例,检索时将输入的文本生成向量与事先嵌入的比对排序,得到结果,还可以跨语言

很清楚,有信心,有把握
0.2464892 一清二楚 十分清楚、明白。
0.3371235 胸中有数 指对情况有清楚的了解,心里有底。
0.3387208 丁一确二 明明白白,确确实实。
0.34483188 炳若观火 形容看得清楚明白。
0.36336312 深信不疑 非常相信,没有一点怀疑。
0.36362875 了然于胸 了然了解、明白。心里非常明白。
0.3696171 历历可见 历历分明、清楚。看得清清楚楚。
0.37630254 洗眉刷目 比喻清晰明白。

有长的有短的有高的有低的,不整齐
0.35259214 参差不齐 参差长短、高低不齐。形容水平不一或很不整齐。
0.4541054 错落高下 犹言长短高低。
0.4554628 里出外进 形容不平整、不整齐。
0.48791197 错落不齐 形容极不整齐。
0.4898445 歪不横楞 歪斜不正的样子。
0.49158502 七长八短 形容高矮、长短不齐。也指不幸的事。
0.49544093 参差错落 参差长短、高低、大小不一致。错落交错、交织的样子。各种不同的事物,错综复杂地交织在一起。
0.51275915 歪八竖八 杂乱不整的样子。

amazing surprising
0.39021876 魂惊魄惕 形容十分震惊。
0.47233462 洞心骇耳 形容使人震惊。
0.4806218 骇目惊心 使人见到非常震惊。
0.48750886 吃惊受怕 受惊骇。
0.48943138 大吃一惊 形容对发生的事感到十分意外。
0.49506134 惊心骇神 指内心感到十分震惊。
0.49807066 一座皆惊 在座的人都感到惊奇。
0.50989306 出自意外 出于意料之外。

缺点是需要模型,需要向量数据库,可能高频词会降低质量

早几年我公开过一个腾讯ai实验室词向量模型的定向抽取类义词集合,你可以找下源头模型,那个大概是目前公开的最大量级的多维词向量模型了

词向量有局限性,将句子甚至文章嵌入应用范围要广得多,模型也正好是针对检索这种任务进行训练优化的

30万条向量可量化到几MB,可查找已经嵌入的近义或同类,对任意内容检索,需要模型,目前试了embeddinggemma-300M,这个跨语言效果好,中文尚可,qwen3embedding-0.6B,中文很强,还能理解深层次的语义。前者能压到200MB,后者要大很多