⚜《Sound++》100W词频(含20W短语)[BNC+COCA+iWeb] + 发音库(英美音)

因为pdawiki几乎关站,备份此贴至freemdict。我原封不动粘下来的,有一些链接都点不进去了。

从2014年第一次开始做BNC词频的mdx算起已经过去好多年了,论坛老前辈们应该是见证了它一点点变完善
2019年,词头数拓展到了100W,词频信息遍历几乎整个语料库。

发音文件来自huge大的1011m发音库。

2020-10-25更新,融合COCA 6W和COCA 50W的数据,常用词的COCA词频更准确易用。
2019-11-01重要更新,增加20W短语词频,总词数达到100W。

词频信息:
COCA 是genre balanced的美语语料库(4.5亿),只有美式拼法。稍稍偏向于小说和报刊。
BNC 为英国国家语料库,规模相对较小(1.0亿),但入选材料质量极高。
iWeb 语料库因为新技术加成,规模十分惊人(140亿),是通过抓取数万个最新网页内容制成。非常与时俱进,收入了大量新潮用法、基础学术用词、新兴科技IT用词。
Economist 经济学人的库最小,词频统计来自发布的历届杂志;想必通读这本杂志是很多人学习英语的一个目标,所以也很有参考性。
ANC 价值不及以上诸位,在这一版被拿掉了。
20W短语词频 来自于zhu1234的个人积累和统计。

设计语言:
一切以极简实用为出发点。gary大的the little dict也很好。但是我尝试做一个更紧凑轻量的东西。另外,无任何js脚本,性能也非常好。
其实这本词典包含了我很多个人化的东西。很多幕后的细节,包括一些词表的选择,都是来自我个人的积累。希望你们也觉得好用。

考试词表简介:
加入了牛津3000小钥匙和考试词表信息。各级别单词一目了然。所有的词表+柯林斯星星基本上是四万单词出头,这就是受过高等教育的英语母语人士掌握的词汇水平。

小钥匙 牛津核心3000词表
高考3500
4 大学四级词汇+短语
6 大学六级
研究生考试
英语专业四级
英语专业八级
托福
雅思
G3000 GRE 要你命3000
G宝 GRE 红宝书
G颠 GRE 巅峰词汇
G GRE 其他

柯林斯星星简介:
添加柯林斯0-5星单词,一共6级。其中0星单词 经常被人忽略,但我认为对英语进阶价值极高。附上我原来在扇贝网发过的一段话:

柯林斯找出了英文中最常用的3万3千词,标记为5星至0星。这个词频统计非常实用,原因是柯林斯拥有庞大的并十分接地气的语料库。因此背完单词用不上的情况基本可以杜绝了。这里的星级词汇提取自柯林斯Collins Cobuild第三版官方光盘。

★★★★★ 5星词汇,有很多动词短语。源列表5星词汇共有1352个,词频是最常用的0001~1353。

★★★★☆ 4星词汇。源列表4星词汇共有1388个,词频是最常用的1354~2741。

★★★☆☆ 3星词汇。源列表3星词汇共有1831个,词频是2742~4572。

★★☆☆☆ 2星词汇。源列表2星词汇共有3407个,词频是4573~7979。

★☆☆☆☆ 1星词汇。源列表1星词汇共有8228个,词频是7980~16207。

☆☆☆☆☆ 0星词汇。柯林斯源列表0星词汇共有17122个,词频是16208~33328。

因为选词很接地气,里面甚至有很多口语化,生活化,英美常识文化的东西,以及一些十分地道的固定搭配,新潮短语。是想达到35000水平却又不愿意背偏词怪词的同学们不可多得的词表。

举例0星词里的a la carte,在其他词表无论如何都背不到的,但是在外文菜单上极为常用,意思是点餐时按菜单单点;对应的table d’hote,意思是按套餐点餐。

Update: 第三版原有的星级词汇用橙色星星标识,第五版及之后新增补的星级词汇用蓝色星星标识,低于0星标准的(3万以外)用灰色星星标识。

词频数字解释:
本词典列出的数字通常是这个词在这个语料库里的排名,数字越小排名越靠前,这个词就越常用。如果语料库不够大,经常会有相同词频(单词在语料库中出现的次数)挤了好几万个单词的情况,就像高考差一分拉下来几千人一样。这时候精确的排名就不是很重要的了。所以BNC词频12以下,经济学人词频10以下,短语词频9以下,我会在方括号内标出词频,并且在排名后面用+号表示他们并列在某一排名。

Reference:
BNC资源来自于:afreeelf - BNC 词频(含标点)txt
COCA资源来自于:cracode -【2015.05.14】COCA Frequency List【36万词频,基于4.5亿当代美式语料库】
iWeb资源来自于:garypang - [3.6]iWeb词频词典:The 14 Billion Word Web Corpus
20W短语来自于:zhu1234 - 英语短语词组频率词典EPFD v3【20170208】
发音文件来自huge大的1011m发音库,英音主要是朗文,美音是韦氏,后面的曲折变形发音来自柯林斯。

特别说明:
词频数据本来是分词性分义项单独排名的。为了极简设计,我只取排名最高的一项,舍去其余项。这样的话很多排名就空出来了。另外有很多标点符号和无用的数字词头,我都手动去除。获得洗干净的词头后,我在再按先后重新排名,所以每个词的排名就会比原始数字小一点。总结起来,我制作的排名是一个单词最常用意思的排名。纯粹是为了平时查的时候方便看,不用过脑子。所以不要用于严谨的学术参考,如果有所误导,请见谅。

更新日志:
2023-10-10
因为pdawiki几乎关站,备份此贴至freemdict
2020-10-25更新

  1. 修正xiaorenhao在置顶评论里提出的COCA数据差异问题。现在版本深度融合了COCA 6W词频和COCA 50W词频,对6W前词频的词汇的统计做到了曲折还原后再统计,力求使常见词的词频更加准确易用。
  2. 增加少量IMDB电影字幕词频。取自gary大的数据
    2019-11-01更新
  3. 增加20W短语词频,总词数达到1000228。
  4. 增加GRE巅峰词汇列表
  5. 增补柯林斯第五版增加的星级词汇(整理自FF柯林斯)。第三版原有的星级词汇用橙色星星标识,新增补的星级词汇用蓝色星星标识,低于0星标准的(3万以外)用灰色星星标识。
    2019-10-10更新
  6. 增加移动版,手机平板用户请下载移动版使用。
  7. 增加机制以防止点击弹出第三方看图程序。
    2019-10-9更新
  8. 修正不应该的大小写单词合并问题,现在全部分开。词头因此增加到807554。
  9. 全部更换高清图标
  10. 现在所有情况均能显示词头
  11. 移动端显示更compact
  12. 把音频文件单列为1.mdd,并且css也外置了一份,方便不需要音频坛友客制化。

下载链接
请勿用于盈利用途,违者触犯刑法。
链接:百度网盘 请输入提取码
提取码:mfak
本人所有字典都不收费,以后也不会收费,主要做学习交流用,下载后请于24小时内删除。因版权问题少数字典不适宜公开分享。

33 Likes

好久不见。

2 Likes

感谢 lgmcw 大分享这部作品!

1 Like

hua大你这边不会关站吧 :doge_bilibili:
你这边过于自由和左派了,我怕版权商也不是很开心,保住站要紧

4 Likes

:doge:

6 Likes

感谢lgmcw大分享作品,之前也用过好几个你的作品,一并感谢。

提一个小问题,不是故意挑刺,之前在pdawiki上就知道这个作品,但是因为柯林斯的星级跟官网不一致,就没有用。今天看到这个最新作品,发现柯林斯星级不准的问题还是存在。

比如此帖中的imposing,在官网是三星,而在此作品中是二星;flora,在官网是三星,在此作品是一星。


用的Bouroz的词频词典,柯林斯的星级数据采用的是2018最新版,跟官网是一致的。


22
333

1 Like

因为历史原因(只有第三版才有0星)我采用的是柯林斯第三版的星级;第五版出现之后(现在官网版本),用第五版星级数据增补,但是主体上还是保持了第三版的星级。

柯林斯词典更新词频很快的,可能你前脚爬完数据后脚他们就更新了

桌面版 与 移动版 有什么区别?

桌面版适用于GoldenDict和MDict桌面版
移动版适用于安卓,iOS的各个软件,以及欧路词典的桌面版
已知问题:移动版的MDict可能发音图标有些bug,之后有空再修一下吧

感谢大神分享。

I’m a fan of your work. This is a unique work like no others. I hope you keep updating it.
Just as a suggestion, using English characters makes it easier to understand for those who don’t know Chinese.

好久不见,期待中啊!

我这加载到殴路词典上怎么会没有小喇叭啊?

请问方便分享牛津高阶双解第九版3.1.3 beta吗,非常感谢

好久没更新了,最近确实遇到这样的问题,手机版的MDict也是这样,等有空我查查是什么问题

2 Likes

欧路 PC 控制台报错

请问有木有大佬分流一下夸克或者别的网盘呀,百度实在下不下来了,感恩啊

GoldenDict-1.5.0-RC2-372-gc3ff15f_(QT_5123),有些单词的发音好长啊。比如number的美音,发完之后还会加一大串有的没的。欧路用起来就没问题,求解决办法。