请问哪位知道《海词》的释义常用度分布图哪里来的吗?剑桥词典中只有CEFR等级。
汉语词典恐怕更没有义频字典或词典了吧?
the little dict的义频是不是从海词来的?
TLD 的来自 COCA
多谢!但要想从COCA得到义频,好像还得自己处理。
下面是GPT的回答:
要使用美国当代英语语料库(COCA,Corpus of Contemporary American English)查找一个单词的各个意思的使用频率,你可以按照以下步骤操作:
-
访问 COCA 网站:首先,你需要访问 COCA 的官方网站。地址通常为 https://www.english-corpora.org/coca/。
-
注册和登录:如果你还没有账户,你需要先注册一个账户。注册并登录后,你才能使用完整的搜索功能。
-
选择搜索类型:COCA 提供了多种搜索选项。对于查找一个单词的不同意思及其使用频率,你可以使用“Word”或“Lemma”搜索。
-
输入要搜索的单词:在搜索框中输入你想要查找的单词。确保你的拼写正确。
-
查看搜索结果:提交搜索后,COCA 会显示该单词在不同语境中的使用实例。要查看不同意思的使用频率,你可以分析这些实例中单词的用法。
-
使用标签或过滤器:COCA 允许你使用语法标签或其他过滤器来细化搜索结果。例如,你可以根据词性(名词、动词等)过滤结果,这有助于区分单词的不同语义角色。
-
统计和分析:COCA 提供了工具来帮助你统计搜索结果,如频率列表和图表。这些工具可以帮助你更好地理解单词在不同上下文中的使用频率。
- 查看上下文:为了更好地理解每个意思的具体用法,你可以查看单词在实际语句中的使用情况。这有助于你判断哪些例句代表了单词的特定意思。
通过这些步骤,你可以有效地使用 COCA 来研究一个单词在美国当代英语中的各种意义及其使用频率。
原来 bing 出过义项的使用频率。不确定是不是这个数据。最好找下原帖。
嗯,刚才看了一下COCA6000中就只是列出了各词性的频率。
朗文虽然分列出口语和书面语的频率,但也是只对词性。目前看来义频方面确实剑桥做得最好。
可能是这个帖子https://forum.freemdict.com/t/topic/27972,但好像没什么内容
COCA语料库可以生成词性使用比例(比如一个单词,动词形式在语料库里使用比例30%,名词形式使用比例70%)。
BNC语料库配合翻译引擎可以生成单词释义比例(比如一个单词,各个含义在语料库中出现次数的比例)
用柯林斯+COCA6万单词做词头,生成了这个释义比例词典
单词释义比例词典.zip (2.8 MB)
多谢!这个怎么弄,能具体说说吗?我想搞中文义频词典,不知道能参考这个思路吗?
之前对比过
和海词的数据都一样,但感觉这比例也不大靠谱
不知道怎么弄。
差不多就行。不同语料库得出的结果肯定有差异,不同类型的语料得出的结果差异更大。
问题不是语料库的问题,如果是的话还好,那至少准确度没问题。我认为是在ai判断每次出现的单词是哪个义项的时候就已经出错了
基于错误的数据再统计下去意义不大
类似的不背单词APP也有差不多的功能,他将所有在指定考试中出现过的义项高亮。能找到好的数据库,再加上能精确判断出现的意思,表现就应该会不错
AI应该是按Token来的, 所以就错了
可以考虑把语料库先分词一遍,然后再统计词频
哪位知道哪些ai有python接口,怎么获取?
基本都有,去查官方文档。先从注册和付费做起吧。