因为pdawiki几乎关站,备份此贴至freemdict。我原封不动粘下来的,有一些链接都点不进去了。
从2014年第一次开始做BNC词频的mdx算起已经过去好多年了,论坛老前辈们应该是见证了它一点点变完善。
2019年,词头数拓展到了100W,词频信息遍历几乎整个语料库。
发音文件来自huge大的1011m发音库。
2020-10-25更新,融合COCA 6W和COCA 50W的数据,常用词的COCA词频更准确易用。
2019-11-01重要更新,增加20W短语词频,总词数达到100W。
词频信息:
COCA 是genre balanced的美语语料库(4.5亿),只有美式拼法。稍稍偏向于小说和报刊。
BNC 为英国国家语料库,规模相对较小(1.0亿),但入选材料质量极高。
iWeb 语料库因为新技术加成,规模十分惊人(140亿),是通过抓取数万个最新网页内容制成。非常与时俱进,收入了大量新潮用法、基础学术用词、新兴科技IT用词。
Economist 经济学人的库最小,词频统计来自发布的历届杂志;想必通读这本杂志是很多人学习英语的一个目标,所以也很有参考性。
ANC 价值不及以上诸位,在这一版被拿掉了。
20W短语词频 来自于zhu1234的个人积累和统计。
设计语言:
一切以极简实用为出发点。gary大的the little dict也很好。但是我尝试做一个更紧凑轻量的东西。另外,无任何js脚本,性能也非常好。
其实这本词典包含了我很多个人化的东西。很多幕后的细节,包括一些词表的选择,都是来自我个人的积累。希望你们也觉得好用。
考试词表简介:
加入了牛津3000小钥匙和考试词表信息。各级别单词一目了然。所有的词表+柯林斯星星基本上是四万单词出头,这就是受过高等教育的英语母语人士掌握的词汇水平。
小钥匙 | 牛津核心3000词表 |
---|---|
高 | 高考3500 |
4 | 大学四级词汇+短语 |
6 | 大学六级 |
研 | 研究生考试 |
四 | 英语专业四级 |
八 | 英语专业八级 |
托 | 托福 |
雅 | 雅思 |
G3000 | GRE 要你命3000 |
G宝 | GRE 红宝书 |
G颠 | GRE 巅峰词汇 |
G | GRE 其他 |
柯林斯星星简介:
添加柯林斯0-5星单词,一共6级。其中0星单词 经常被人忽略,但我认为对英语进阶价值极高。附上我原来在扇贝网发过的一段话:
柯林斯找出了英文中最常用的3万3千词,标记为5星至0星。这个词频统计非常实用,原因是柯林斯拥有庞大的并十分接地气的语料库。因此背完单词用不上的情况基本可以杜绝了。这里的星级词汇提取自柯林斯Collins Cobuild第三版官方光盘。
★★★★★ 5星词汇,有很多动词短语。源列表5星词汇共有1352个,词频是最常用的0001~1353。
★★★★☆ 4星词汇。源列表4星词汇共有1388个,词频是最常用的1354~2741。
★★★☆☆ 3星词汇。源列表3星词汇共有1831个,词频是2742~4572。
★★☆☆☆ 2星词汇。源列表2星词汇共有3407个,词频是4573~7979。
★☆☆☆☆ 1星词汇。源列表1星词汇共有8228个,词频是7980~16207。
☆☆☆☆☆ 0星词汇。柯林斯源列表0星词汇共有17122个,词频是16208~33328。
因为选词很接地气,里面甚至有很多口语化,生活化,英美常识文化的东西,以及一些十分地道的固定搭配,新潮短语。是想达到35000水平却又不愿意背偏词怪词的同学们不可多得的词表。
举例0星词里的a la carte,在其他词表无论如何都背不到的,但是在外文菜单上极为常用,意思是点餐时按菜单单点;对应的table d’hote,意思是按套餐点餐。
Update: 第三版原有的星级词汇用橙色星星标识,第五版及之后新增补的星级词汇用蓝色星星标识,低于0星标准的(3万以外)用灰色星星标识。
词频数字解释:
本词典列出的数字通常是这个词在这个语料库里的排名,数字越小排名越靠前,这个词就越常用。如果语料库不够大,经常会有相同词频(单词在语料库中出现的次数)挤了好几万个单词的情况,就像高考差一分拉下来几千人一样。这时候精确的排名就不是很重要的了。所以BNC词频12以下,经济学人词频10以下,短语词频9以下,我会在方括号内标出词频,并且在排名后面用+号表示他们并列在某一排名。
Reference:
BNC资源来自于:afreeelf - BNC 词频(含标点)txt
COCA资源来自于:cracode -【2015.05.14】COCA Frequency List【36万词频,基于4.5亿当代美式语料库】
iWeb资源来自于:garypang - [3.6]iWeb词频词典:The 14 Billion Word Web Corpus
20W短语来自于:zhu1234 - 英语短语词组频率词典EPFD v3【20170208】
发音文件来自huge大的1011m发音库,英音主要是朗文,美音是韦氏,后面的曲折变形发音来自柯林斯。
特别说明:
词频数据本来是分词性分义项单独排名的。为了极简设计,我只取排名最高的一项,舍去其余项。这样的话很多排名就空出来了。另外有很多标点符号和无用的数字词头,我都手动去除。获得洗干净的词头后,我在再按先后重新排名,所以每个词的排名就会比原始数字小一点。总结起来,我制作的排名是一个单词最常用意思的排名。纯粹是为了平时查的时候方便看,不用过脑子。所以不要用于严谨的学术参考,如果有所误导,请见谅。
更新日志:
2023-10-10
因为pdawiki几乎关站,备份此贴至freemdict
2020-10-25更新
- 修正xiaorenhao在置顶评论里提出的COCA数据差异问题。现在版本深度融合了COCA 6W词频和COCA 50W词频,对6W前词频的词汇的统计做到了曲折还原后再统计,力求使常见词的词频更加准确易用。
- 增加少量IMDB电影字幕词频。取自gary大的数据。
2019-11-01更新 - 增加20W短语词频,总词数达到1000228。
- 增加GRE巅峰词汇列表
- 增补柯林斯第五版增加的星级词汇(整理自FF柯林斯)。第三版原有的星级词汇用橙色星星标识,新增补的星级词汇用蓝色星星标识,低于0星标准的(3万以外)用灰色星星标识。
2019-10-10更新 - 增加移动版,手机平板用户请下载移动版使用。
- 增加机制以防止点击弹出第三方看图程序。
2019-10-9更新 - 修正不应该的大小写单词合并问题,现在全部分开。词头因此增加到807554。
- 全部更换高清图标
- 现在所有情况均能显示词头
- 移动端显示更compact
- 把音频文件单列为1.mdd,并且css也外置了一份,方便不需要音频坛友客制化。
下载链接
请勿用于盈利用途,违者触犯刑法。
链接:百度网盘 请输入提取码
提取码:mfak
本人所有字典都不收费,以后也不会收费,主要做学习交流用,下载后请于24小时内删除。因版权问题少数字典不适宜公开分享。