词表大比较

COCA

美国一九九〇年至今的当代语料库,充分覆盖了出版物。但网络上该词表来源多到混乱。有必要先理清。

首先看官方,必须明确官网其实有两种词频表,一个是大家都熟悉的 COCA,其词表又有三个形式,即数量分别为 5000,20000,60000,其中 5000 免费。 该 COCA 表会在 part of speech 彼此独立的前提下,计所有常规形态变化为同一个单词。但另一种词表 COCA+ 100000 就不一样了,不光把所有常规形态变化都独立看待,而且还结合了其他语料库 CHAE,BNC,CASO。此外官网有个比较坑的地方是没说清楚 COCA+ 100000 和 COCA 很不一样,甚至有时候连加号都省略了,那个卖词表的网页就如此。

于是论坛上不同人拿着不一样的词频表做并自称 COCA 词表,我估计其中有些人都没搞清楚他所以为的 COCA 其实是 COCA+ 100000. 也难怪有人提问为什么词频不一样

好在官网有 sample,我自己拿 sample 的 rank 在所有论坛 COCA 词表都试了一遍。结论如下:

首先 COCA 官网的 sample rank/freq 与论坛对应 COCA 词表都会有细微的差异,我猜因为官网每年都会更新词表。好在这影响微乎其微。

基于 COCA 的有 fuxy526 2016 年制作的 COCA Frequency 60000 忠实保留了 part of speech 分别独立的形式,且能显示 genre 分布表格。

2015 年,cracode 基于 COCA+ 100000 制作了号称 36 万词频的表

2015 年,jijizhazha 又基于 cracode 的基础上制作了 BNC+ANC+COCA 词频,GitHub 上的 ZZ WordFreq 项目也是它,但当事人把 part of speech 彼此独立的特点抛弃掉了,即针对每一个单词只取最常用 part of speech 的那部分,重新排名。当事人被盗号后,又以 lgmcw 名称 先后于 2016 年更新词频,于 [2018 年追加 Sound 发音库,优化排版] 和 2019 年抛弃 ANC,新增 Economist 和二十万短语词频,Oxford 3000,各种考试词表更新该词表。如果该最新词表能彼此独立对待 part of speech,并给出每个词表的准确来源,就太完美了。

对于有志深入美国文化的学生,该 COCA 有非常高的参考价值。可惜正规渠道需要花钱买表,民间来源就上面那些了。即 COCA Frequency 60000,ZZ WordFreq(淘汰),BNC+ANC+COCA(淘汰),Sound+ANC+BNC+COCA(淘汰),Sound++。

简明英汉字典增强版

也有 COCA 词表,应该也基于 COCA 而制作,其词频和 fuxy526 2016 的 COCA Frequency 60000 并不一样,大概是因为制作年份不同的缘故。此外还列出了是否为中考高考四级六级考研雅思托福GRE词汇。来源欠透明。由于 Sound+BNC+COCA+iWeb 已包含考试词表,该字典可以只作为备用英汉字典而排在后面。

wordtag.py

我自己在 GitHub 上拿来在 Goldendict 上用的脚本 ,可以显示单词属于什么考试范围,原理就是爬欧陆词典在线网站的数据,后者的词表来源当然不明。淘汰。

Oxford 3000/5000 以及其他表

我爱死牛津了,该词表对初学者特别友好

其他词表

大学四六级其实官方考试大纲就有精确的词表;考研英语考试大纲懒得去找了,反正我也不会去考。

网上很多雅思托福词表的来源欠清楚,包括 Sound++

Sound++中的 BNC 可谓 Britain English 语料库;iWeb 是网络最大最新的语料库,偏流行;Economist 顾名思义。

其实官方 Economist 有 GRE 词表,似乎可是并没有公开发表,需要自己付费去学习。

我自己找了 Word Made Power Easy 的词表,可是网上公开的似乎都不全。

16 个赞

词频表的mdx中比较好的还有the little dict, 词频词典2.1(端午。。剩下记不清了),ff所制柯林斯学习词典的trends of words(这个比较独特,是个以历史跨度为基准的折线着线统计图,同类型的有谷歌的一个项目,记得还有法德等语言的版本)。

语料库的话,BOE,LCMC,Sketch Engine,BASE,Lextutor,Unterm,Economist,世界卫生组织术语库,这几个也比较有代表性

1 个赞

词表,麦克米伦有个8000星级词,欧陆有生词本。朗文的话也有个几张词表,柯林斯有星级词汇(不过数量比较大了)

学习型词典基本都有各自的词表,网上也有相关介绍文。本贴子就主要只介绍其他词表了。

背还是要背的,争取小学毕业 :rofl:

1 个赞

很多人都不愿承认这一点。尤其是生活气息浓厚、但书本上基本上碰不到的单词,如很多园艺工具单词,各种各样人体的动作,厨房里的各种器具和食物等,如pantry对国人来说恐怕只可能在小说里碰到,而他们即便不上学也从小到大接触到这些物品或动作。

反过来看,如果是比单词拼写、可能80%的美国人不如你,包括阅读报刊能力,他们只是听力和口语强。

没有必要每个方面都比native speaker强,不要为了学习而学习。英语是个工具,而且是进步无止境的工具,是拿来“善其事“的。能达到绝大多数情况下胜任自己学习和工作的语言水平就OK了,在此基础上继续不断努力学习拓展语言能力,好好享受这个学习过程,have fun!

4 个赞

那些生活气息浓厚的单词可以在 English for Everyone: English Vocabulary Builder 全背掉,这书自称一共三千,可见还是比较有限的。不过我目前只背不会就会生活困难的单词,比如 restroom,shower gel ,leave,overtime 等,那些不背也没什么大不了的也有很多,比如各种食物,农艺工具等,等我真出国成功了再背也不迟。据说其实逛超市多了也会自然记住。

1 个赞

那本书我翻过,名词居多,只是他们生活中碰到的很小一部分。
我们说的柑橘是orange吗?外面下小雨是rainning outside吗?rain和drizzle,doodle和scribble等国人认为差不多的东西或动作,但却是他们从小的观念里就认为是两种不一样的东东。这种类似的错误防不胜防,而且让老外觉得是很低级的错误。如果出国后生活中大多是跟华人打交道,那确实不需要知道这么多。

回到正题,我觉得楼主搞词表挺有意义的。各大学习型词典都有词频分级,要是能把这些分类汇总起来,对英语学习大有好处。

3 个赞

OALD9里提到的学术词汇表也很好,字典里用AW标识了词条。

2 个赞

现在已经是 OALD 10 的时代了!

3 个赞

大师,您有没有搞清楚四六级考试词表的演变?我一直有个大问题,为什么十几年前有个大学英语课程教学要求,一般要求 4794 个单词(含中学已学词汇);较高要求 1601 个单词,表中标记为★;更高要求 1281 个单词,表中标记为▲。计算可得六级有7676个单词,和朗文9000实际的词汇量几乎是完全相同的(但它们不完全重合)。但后来市面上的六级词汇书又都是不到6000的。你给的所谓官方词汇表也不到6000吧?
英语的要求应该是越来越高,怎么新的六级反而比老的六级要求更低了?
谁能搞清楚我这个词表和现在的词表究竟是什么关系?
http://www.chinanews.com/edu/kong/news/2007/09-26/1036802.shtml
下载: 链接:https://pan.baidu.com/s/1i38E9VSMPGLs-OSjojJVFw
提取码:2soy

1 个赞

以前花过很多时间研究这些词表制作得为什么同一个单词词频差得如此离谱。浪费了大量宝贵时间。
在下认为,1万–2万之间的单词,实在没必要去太较真词频究竟是多少,因为它们都是次常用词,它们之间词频的相差幅度远远小于它们和常用词之间的相差幅度。你个人在实际生活工作学习中遇到这些次常用词的频度和任何所谓“精准词频”的词表都会有可能比较大的差异,如果你想通过词表按词频从高到低来记忆而不是在阅读中慢慢积累来记忆,那么,随便挑一个词表记都可以!开卷有益,开记有益!不要再为究竟背哪个词频表准确而伤脑筋!

4 个赞

每家词表根据的语料库不一样,更别说语言还会随着时间的变化,世界上可能不存在语料库能准确反映语言的词频规律。我自己读了不少原版小说,发现不同作家的写作词汇池也不一样,爱伦坡用的词汇就很难。

我也不知道大学考试要求为什么会变小。反正词汇量始终还是越大越好,而且非母语人士词汇量达到三万之前,恐怕会始终词汇量觉得不够用。

3 个赞

同一单词不同词义的词频也是不同的

2 个赞

谢谢楼主的总结,:blush:
我现在用的词频表是可以点开看分类新牛津英汉双解词典2
the little dict在iPhone欧路app上点不开(即使修改config.ini的0/1开关也不能点击展开词频分布),再基于最近全力以赴用英英的方针,就很少点开它。

1 个赞

英语四级考试词汇手册

全国大学英语四、六级考试大纲(2016年修订版).pdf (11.5 MB)
image


详见沪江

综上所述:四级4200,六级5418。如果能熟练掌握大纲里出现的词根词缀,那么六级词汇量实际在八千左右(7969)。

2 个赞

还记得用26个英文字母组成一句话吗?连续打这样的话应该对熟悉键盘有帮助。

那有没有办法把四级或四六级这前几千个词从LDOCE5++或olade8中提取出来,形成个小词典,可以背诵的那种。而且释义也是用的2000~3000词,基本不会太偏。

我记得四六级官网有词表,虽然没给释义。还是直接随便找市场上的词典书背算了。

我用的应该是这个(也下载了你另一个链接中的COCA Frequency 60000 ),但是发现一些常用词查不到:acre, bin, dollar, gallon, December, Sunday(其他月份和周几也没有),你们有这个现象吗?

Sound++中是有的,但他没有按词性区分排名,不知道排名是怎么合成的

有这现象,吃惊。看来 fuxy526 版还有这致命缺陷。