在论坛也有一段时间了,总是做伸手党,实在不好意思,2026年了,也要为论坛贡献一点微薄之力。
在背单词时很多时候我们会遇到一词多义。有词根含义,也有扩展含义,还有词源初始含义。当然大部分含义是可以联想串记的。总之,问题就是,当遇到生词且有多个义项时,我们总想知道日常生活(并非某个特殊领域高频含义)中最常用的含义,然后优先记忆。
本次综合了三大模型,千问,豆包,Gemini, 分别提取单词的多义项的使用频率。最后由 Gemini 汇总,给出一个基本可用,可供快速参考的按使用频率排序后的多义项。
单词来自于 COCA-60K-2020版本。感谢本论坛内帖子:@ Waylon 提供的单词数据 COCA Frequency 60,000 — 2020.mdx (v1.2, 2024.1.12)
本次提供原始数据和AppleDict。关于 MDX 文件格式如果有必要,请论坛高手制作一下并分享。
sfm.xml这个文件,是按单词的(COCA-2020-60K)总词频排序后的输出内容(词性总词频相同时哪个词性词频最高就优先),如果按词频使用率背单词的,可供参考。
如果使用过程中遇到严重问题,也请回帖。
如果觉得有用,可以使用,如果觉得不好用,可以不用。
数据和字典下载链接:百度网盘 请输入提取码
文件说明:
raw_data,三大模型输出的原始文件。
apple_dict_makefile.zip,apple字典制作文件,可基于此文件做mdx。
sfm.dictionary.zip,apple字典,直接解压到 /Users/yourName/Library/Dictionaries 即可使用。
字典截图:
之前论坛内有人做过相似工作,也挺好的,那个版本应该没有用到大模型。但数据质量也挺好的。放个截图。




