义频词典???

请问哪位知道《海词》的释义常用度分布图哪里来的吗?剑桥词典中只有CEFR等级。
汉语词典恐怕更没有义频字典或词典了吧?

the little dict的义频是不是从海词来的?

TLD 的来自 COCA

1 个赞

多谢!但要想从COCA得到义频,好像还得自己处理。
下面是GPT的回答:
要使用美国当代英语语料库(COCA,Corpus of Contemporary American English)查找一个单词的各个意思的使用频率,你可以按照以下步骤操作:

  1. 访问 COCA 网站:首先,你需要访问 COCA 的官方网站。地址通常为 https://www.english-corpora.org/coca/。

  2. 注册和登录:如果你还没有账户,你需要先注册一个账户。注册并登录后,你才能使用完整的搜索功能。

  3. 选择搜索类型:COCA 提供了多种搜索选项。对于查找一个单词的不同意思及其使用频率,你可以使用“Word”或“Lemma”搜索。

  4. 输入要搜索的单词:在搜索框中输入你想要查找的单词。确保你的拼写正确。

  5. 查看搜索结果:提交搜索后,COCA 会显示该单词在不同语境中的使用实例。要查看不同意思的使用频率,你可以分析这些实例中单词的用法。

  6. 使用标签或过滤器:COCA 允许你使用语法标签或其他过滤器来细化搜索结果。例如,你可以根据词性(名词、动词等)过滤结果,这有助于区分单词的不同语义角色。

  7. 统计和分析:COCA 提供了工具来帮助你统计搜索结果,如频率列表和图表。这些工具可以帮助你更好地理解单词在不同上下文中的使用频率。

  • 查看上下文:为了更好地理解每个意思的具体用法,你可以查看单词在实际语句中的使用情况。这有助于你判断哪些例句代表了单词的特定意思。

通过这些步骤,你可以有效地使用 COCA 来研究一个单词在美国当代英语中的各种意义及其使用频率。

原来 bing 出过义项的使用频率。不确定是不是这个数据。最好找下原帖。

嗯,刚才看了一下COCA6000中就只是列出了各词性的频率。
朗文虽然分列出口语和书面语的频率,但也是只对词性。目前看来义频方面确实剑桥做得最好。

可能是这个帖子https://forum.freemdict.com/t/topic/27972,但好像没什么内容

COCA语料库可以生成词性使用比例(比如一个单词,动词形式在语料库里使用比例30%,名词形式使用比例70%)。

BNC语料库配合翻译引擎可以生成单词释义比例(比如一个单词,各个含义在语料库中出现次数的比例)

用柯林斯+COCA6万单词做词头,生成了这个释义比例词典

单词释义比例词典.zip (2.8 MB)

3 个赞

多谢!这个怎么弄,能具体说说吗?我想搞中文义频词典,不知道能参考这个思路吗?

之前对比过
和海词的数据都一样,但感觉这比例也不大靠谱

不知道怎么弄。

差不多就行。不同语料库得出的结果肯定有差异,不同类型的语料得出的结果差异更大。

问题不是语料库的问题,如果是的话还好,那至少准确度没问题。我认为是在ai判断每次出现的单词是哪个义项的时候就已经出错了
基于错误的数据再统计下去意义不大
类似的不背单词APP也有差不多的功能,他将所有在指定考试中出现过的义项高亮。能找到好的数据库,再加上能精确判断出现的意思,表现就应该会不错

1 个赞

AI应该是按Token来的, 所以就错了
可以考虑把语料库先分词一遍,然后再统计词频

哪位知道哪些ai有python接口,怎么获取?

基本都有,去查官方文档。先从注册和付费做起吧。

1 个赞