考试义项频率统计求助

雾海藏月 · 2024 年9 月 25 日 05:42

我想制作一个偏向大学应试（四级六级考研）的词典，因为专业词典往往一个单词有很多个意思，我希望针对应试，找到最常出现最重要的意思，这样有针对性，因此我想统计所有四六级考研的单词的每个意思在真题中出现的频次，有了频次就可以统计义项在真题出现的比例。目前我有的资源是所有四六级考研单词列表和所有四六级考研真题数据。我的想法是先定位到每个单词在真题中出现的所有地方，然后针对每一个地方，即确定的语境下，先识别这个单词在当前语境下的词性，这个还比较容易实现，识别词性之后就要进行词义消歧（NLP经典问题），就是确定这个语境中的这个单词到底是哪个意思？我现在的方案是利用大模型+向量距离+人工对齐三管齐下的方法提高识别准确率。然后现在主要的问题是：我需要一个基础词典，这个词典给定了每个单词的词性以及每个词性下的每个意思，即意思和意思是分开的，是细粒度到义项这一层的。因为是针对应试，所以要是中英释义的，当然有英英会更好，又因为是针对应试的，最好不要有太多生僻的义项，因为会使得调用大模型成本变高，比如牛津这种专业词典，义项就很多，如果全部输入给大模型成本会很高。所以这个基础词典就比较难选，所以想来求助大佬们。

补充：
用大模型来判断是哪个义项的prompt组成基本就是：这个单词所在的句子或者段落加上这个单词的所有义项，要求大模型选择一个义项。
所以如果基础词典义项太多，会很消耗token，如果义项不足也不好。

感谢大佬们！

zheshijie · 2024 年9 月 25 日 08:33

这个想法倒是激发了我的一个想法：一个词单独出现的时候无法确定意义，但是在一个句子中是明确的，当然句子是无限的，那么介于两者之间呢？不限于语言，英文的单词与单词，汉语的字与字，一旦两个词一起出现，意义会极大确定（是不是叫做共现，不太懂），比如单独的make和做，无法确定意义，但是make fire, make money, 做饭，做寿，就马上明确了。
有人制作过coca20000的词典，里面有每个词最常搭配的词，这样的每个搭配都能确定一个确定的意义。哈哈，只是一个想法，献丑了。

Sherman · 2024 年9 月 25 日 10:08

仅以考生身份，针对【四级六级考研】这三门考试的话，我个人建议一本《恋练有词6500》就够了。它的章节编排的比较合理，还有双师词汇课，外加背词系统。。。

雾海藏月 · 2024 年9 月 25 日 11:22

这个其实就是大模型的原理，通过大量语料输入然后得到这个单词和其他单词一起出现的概率，比如make money经常在“赚钱”这个意义下的语境出现，那么你问大模型“赚钱”的英文是什么，那它就会输出在它训练的数据里出现概率最大的那个英文，很有可能就会输出“make money”

zheshijie · 2024 年9 月 25 日 11:51

这么说的话，是不是可以这样，直接提取数据库里所有两个词的组合，假设任何两个词的组合能确定明确的意义，是不是就可以得到其中一个词的意义，频率就出来了，比如make fire出现10次，生火的意思，得出这里make的意思是生，也就是make是生的意思的频率是10次，同样的假设make money出现20次，那么make是赚的意思的频率就是20

gtxxeon · 2024 年9 月 25 日 15:58

欧路不是有吗
墨墨和不背单词也有

雾海藏月 · 2024 年9 月 26 日 02:06

这个是词频呢，我想统计义项频率

雾海藏月 · 2024 年9 月 26 日 02:13

嗯嗯有道理，但是我更多的还是想找一个合适的基础词典

gtxxeon · 2024 年9 月 26 日 15:54

不背单词有统计，考试词汇本来就不多，参考意义不是很大。以学习者为中心，而不是以工具为中心。有这功夫做几套题，看几篇文章不香吗

dayone · 2024 年9 月 29 日 03:51

Wordnet 你可以看看，是否满足你基础词典的需求

sannuofy · 2024 年9 月 29 日 05:20

你说的那就是义项的意频了，也就是义项的分级，这个剑桥不早就有了，分了6级呢，你只取单词包含这6级的义项就少很多了，我粗略统计过从A1到C2总计大概13w个义项，然后你在筛选一下只取四六级考研的词汇，估计在10W义项左右，当然可能包含分级的单词无法完全对应这些考试词汇，但是剩下的也不会很多了，最后再查漏补缺就行了

雾海藏月 · 2024 年9 月 29 日 08:27

感谢感谢，剑桥义项分级我知道，不过我感觉不太够，我想更完美点，能够统计每个义项一共出现多少次，义项出现次数的比例是什么，然后还可以定位到这个义项出现在了真题的哪些位置

雾海藏月 · 2024 年9 月 29 日 08:29

感谢感谢，为什么想细粒度到义项呢，是因为看了郝海龙的英语自学手册，里面提到理想的背单词app应该是可以一个单词的每个义项可以分开单独背的，所以有了这个想法

步天歌 · 2024 年9 月 29 日 12:01

AnkiHelper 就是你说的【理想的背单词 app 应该是可以一个单词的每个义项可以分开单独背的】。

开发者亲自提取了几本辞典：

QQ群里也有人分享了一些：

但我个人觉得，按照你对数据的要求，你可能还是得自己从 mdx 提取（先把所有解释提取出来，然后再分割义项，不停地用正则就好）。

另外，对于这种任务，没有必要上OpenAI家的模型，直接用DeepSeek就好（输入价格：1元/百万tokens；输出价格：2元/百万tokens）。

我用下面的 Prompt 做过测试，效果还行。


# Role: 词典查询助手

## Profile

- Author: NoHeartPen
- Version: 0.1
- Description: 词典查询助手是从权威词典提供的完整解释中搜索出与上下文语境最接近意项的语言学习助手。

## Rules
1. 尊重原文，不得翻译提供的词典的完整解释，不得修改提供的词典的完整解释
2. 当上下文语境出现词典尚未收录的用法时，返回 "词典尚未收录这个用法" ，其他时候不需要提供任何辅助说明，只需返回词典解释

## Workflow
1. 让用户以 "上下文：[], 想要查询的单词：[], 词典的完整解释：[]" 的方式提供上下文和需要查询的单词。
2. 针对用户给定的上下文、需要查询的单词和词典的完整解释，分析用户提供的词典完整解释中和上下文语境最接近的解释意项
3. 只需要返回与上下文语境最接近的意项的相关解释，不需要返回与上下文语境无关的其他解释
4. 不需要翻译词典的解释，不需要做任何辅助说明

## Initialization
作为角色 <Role>, 严格遵守 <Rules>, 友好的欢迎用户。然后介绍自己，并告诉用户 <Workflow>。

## 示例
上下文：[she's the most refined girl in all Of kamiyama in middle school.], 想要查询的单词：[refined], 词典的完整解释：[re·fined AW 
 [usually before noun] (of a substance 物质) made pure by having other substances taken out of it 精炼的；提纯的；精制的
refined sugar
精制糖
(of a person 人) polite, well educated and able to judge the quality of things; having the sort of manners that are considered typical of a high social class 有礼貌的；优雅的；有教养的
SYN cultured, genteel
OPP unrefined]
你的回答：(of a person 人) polite, well educated and able to judge the quality of things; having the sort of manners that are considered typical of a high social class 有礼貌的；优雅的；有教养的


上下文：[They’re crawling now, and they won’t reach the Solar System for more than eight hundred years.], 想要查询的单词：[crawling], 词典的完整解释：[ [I] (+ adv./prep.) to move forward on your hands and knees, with your body close to the ground 爬；爬行；匍匐行进
Our baby is just starting to crawl.
我们的宝宝刚开始会爬。
🔊🔊
A man was crawling away from the burning wreckage.
一个男人正爬离燃烧着的残骸。
🔊🔊
 [I] (+ adv./prep.) when an insect crawls, it moves forward on its legs （昆虫）爬行
There's a spider crawling up your leg.
有只蜘蛛正顺着你的腿往上爬。
🔊🔊
 [I] (+ adv./prep.) to move forward very slowly 缓慢行进
The traffic was crawling along.
来往车辆缓缓而行。
🔊🔊
The weeks crawled by.
几个星期慢慢地过去了。
🔊🔊
 [I] ~ (to sb) (informal, disapproving) to be too friendly or helpful to sb in authority, in a way that is not sincere, especially in order to get an advantage from them 卑躬屈膝；谄媚；巴结；拍马屁]

sannuofy · 2024 年9 月 29 日 13:42

噢，你意思是找一个义项不至于那么多的中阶词典，然后把义项分割后去每一句中去对照，然后统计是吧，那牛津中阶不就是现成的吗，你把mdx解出来，然后得到一个txt，然后去分析词典数据的结构，然后把义项分割出来就行了

zambast · 2024 年9 月 30 日 01:22

剑桥有义项CEFR标注，这个标注就是根据词频来的。牛津10也有。CEFR标注应该还有编辑的人工认证，绝对排名根据语料库的不同实际上反而不够准确。

Sherman · 2024 年10 月 2 日 00:49

建议在展开这项讨论之前先做市场调研，可能有如下几个思路：
1.市场上现有的出版物。例如《恋练有词6500》就是按照楼主的要求制作的词书。在他们提供的视频课上，老师也曾展示过他们的统计截图。出现次数多的释义，会用绿色下划线在中文下标出。而考试中没有出现的释义，但词典上有的，不会收录。除此之外他们还考虑了其他单词学习因素，形成了较为系统的单词学习体系。
2.考研公众号的笔记资料。例如电灯李曾发表过考研英语词频表（没有考虑义频）。根据电灯李的介绍，他的词汇表不止于大纲词汇，而是把试卷文本拆分得来的。
3.各权威机构的词表。如楼上所说的CEFR，也较为符合楼主的标准。这是雅思的官方词表。它的级别不是标注在单词前，而是释义前。

综上，现有的可能还存在很多符合楼主思路的资料，建议先尽可能收集同类竞品，再对项目进行延展。

所以，我依然建议，如果只是自己备考，一本恋练有词就够用（我自己仅凭这本书今年考研英语60+，雅思6）；如果是有做项目、惠及大众的打算，建议先做调研。

Sherman · 2024 年10 月 2 日 01:07

从文章里拆单词并统计词频，你可能会用到这个软件
Laurence Anthony’s AntConc

Sherman · 2024 年10 月 28 日 06:22

一个可参考项目
Release 考研词汇词频排序表 v7.0 · exam-data/NETEMVocabulary · GitHub

aarondeng · 2024 年10 月 28 日 08:36

哪里能有剑桥的义项分级呢？愿闻其详，谢谢！