词表大比较

COCA

美国一九九〇年至今的当代语料库,充分覆盖了出版物。但网络上该词表来源多到混乱。有必要先理清。

首先看官方,必须明确官网其实有两种词频表,一个是大家都熟悉的 COCA,其词表又有三个形式,即数量分别为 5000,20000,60000,其中 5000 免费。 该 COCA 表会在 part of speech 彼此独立的前提下,计所有常规形态变化为同一个单词。但另一种词表 COCA+ 100000 就不一样了,不光把所有常规形态变化都独立看待,而且还结合了其他语料库 CHAE,BNC,CASO。此外官网有个比较坑的地方是没说清楚 COCA+ 100000 和 COCA 很不一样,甚至有时候连加号都省略了,那个卖词表的网页就如此。

于是论坛上不同人拿着不一样的词频表做并自称 COCA 词表,我估计其中有些人都没搞清楚他所以为的 COCA 其实是 COCA+ 100000. 也难怪有人提问为什么词频不一样

好在官网有 sample,我自己拿 sample 的 rank 在所有论坛 COCA 词表都试了一遍。结论如下:

首先 COCA 官网的 sample rank/freq 与论坛对应 COCA 词表都会有细微的差异,我猜因为官网每年都会更新词表。好在这影响微乎其微。

基于 COCA 的有 fuxy526 2016 年制作的 COCA Frequency 60000 忠实保留了 part of speech 分别独立的形式,且能显示 genre 分布表格。

2015 年,cracode 基于 COCA+ 100000 制作了号称 36 万词频的表

2015 年,jijizhazha 又基于 cracode 的基础上制作了 BNC+ANC+COCA 词频,GitHub 上的 ZZ WordFreq 项目也是它,但当事人把 part of speech 彼此独立的特点抛弃掉了,即针对每一个单词只取最常用 part of speech 的那部分,重新排名。当事人被盗号后,又以 lgmcw 名称 先后于 2016 年更新词频,于 [2018 年追加 Sound 发音库,优化排版] 和 2019 年抛弃 ANC,新增 Economist 和二十万短语词频,Oxford 3000,各种考试词表更新该词表。如果该最新词表能彼此独立对待 part of speech,并给出每个词表的准确来源,就太完美了。

对于有志深入美国文化的学生,该 COCA 有非常高的参考价值。可惜正规渠道需要花钱买表,民间来源就上面那些了。即 COCA Frequency 60000,ZZ WordFreq(淘汰),BNC+ANC+COCA(淘汰),Sound+ANC+BNC+COCA(淘汰),Sound++。

简明英汉字典增强版

也有 COCA 词表,应该也基于 COCA 而制作,其词频和 fuxy526 2016 的 COCA Frequency 60000 并不一样,大概是因为制作年份不同的缘故。此外还列出了是否为中考高考四级六级考研雅思托福GRE词汇。来源欠透明。由于 Sound+BNC+COCA+iWeb 已包含考试词表,该字典可以只作为备用英汉字典而排在后面。

wordtag.py

我自己在 GitHub 上拿来在 Goldendict 上用的脚本 ,可以显示单词属于什么考试范围,原理就是爬欧陆词典在线网站的数据,后者的词表来源当然不明。淘汰。

Oxford 3000/5000 以及其他表

我爱死牛津了,该词表对初学者特别友好

其他词表

大学四六级其实官方考试大纲就有精确的词表;考研英语考试大纲懒得去找了,反正我也不会去考。

网上很多雅思托福词表的来源欠清楚,包括 Sound++

Sound++中的 BNC 可谓 Britain English 语料库;iWeb 是网络最大最新的语料库,偏流行;Economist 顾名思义。

其实官方 Economist 有 GRE 词表,似乎可是并没有公开发表,需要自己付费去学习。

我自己找了 Word Made Power Easy 的词表,可是网上公开的似乎都不全。

2 Likes

词频表的mdx中比较好的还有the little dict, 词频词典2.1(端午。。剩下记不清了),ff所制柯林斯学习词典的trends of words(这个比较独特,是个以历史跨度为基准的折线着线统计图,同类型的有谷歌的一个项目,记得还有法德等语言的版本)。

语料库的话,BOE,LCMC,Sketch Engine,BASE,Lextutor,Unterm,Economist,世界卫生组织术语库,这几个也比较有代表性

1 Like

词表,麦克米伦有个8000星级词,欧陆有生词本。朗文的话也有个几张词表,柯林斯有星级词汇(不过数量比较大了)

今天偶然发现一个词表WVI,是针对K12学生的

这词表应该可以从我之前爬的文本里扒拉出来,有需求的同学可以试试。自从意识到英语国家4年级小朋友的有效词汇量都远超过我,我就没动力背单词了。

https://kids.wordsmyth.net/we/help/wvi.php

Headwords labeled with a number from 1 to 5 belong to the Wordsmyth Vocabulary Index (WVI), a list of 10,000 important vocabulary words grouped into five levels of difficulty, with level 1 words being the least difficult and level 5 the most difficult.
  • level 1 grades K-2
  • level 2 grades 3-6
  • level 3 grades 7-9
  • level 4 grades 10-12
  • level 5 grades 12+
2 Likes

学习型词典基本都有各自的词表,网上也有相关介绍文。本贴子就主要只介绍其他词表了。

背还是要背的,争取小学毕业 :rofl:

很多人都不愿承认这一点。尤其是生活气息浓厚、但书本上基本上碰不到的单词,如很多园艺工具单词,各种各样人体的动作,厨房里的各种器具和食物等,如pantry对国人来说恐怕只可能在小说里碰到,而他们即便不上学也从小到大接触到这些物品或动作。

反过来看,如果是比单词拼写、可能80%的美国人不如你,包括阅读报刊能力,他们只是听力和口语强。

没有必要每个方面都比native speaker强,不要为了学习而学习。英语是个工具,而且是进步无止境的工具,是拿来“善其事“的。能达到绝大多数情况下胜任自己学习和工作的语言水平就OK了,在此基础上继续不断努力学习拓展语言能力,好好享受这个学习过程,have fun!

那些生活气息浓厚的单词可以在 English for Everyone: English Vocabulary Builder 全背掉,这书自称一共三千,可见还是比较有限的。不过我目前只背不会就会生活困难的单词,比如 restroom,shower gel ,leave,overtime 等,那些不背也没什么大不了的也有很多,比如各种食物,农艺工具等,等我真出国成功了再背也不迟。据说其实逛超市多了也会自然记住。

那本书我翻过,名词居多,只是他们生活中碰到的很小一部分。
我们说的柑橘是orange吗?外面下小雨是rainning outside吗?rain和drizzle,doodle和scribble等国人认为差不多的东西或动作,但却是他们从小的观念里就认为是两种不一样的东东。这种类似的错误防不胜防,而且让老外觉得是很低级的错误。如果出国后生活中大多是跟华人打交道,那确实不需要知道这么多。

回到正题,我觉得楼主搞词表挺有意义的。各大学习型词典都有词频分级,要是能把这些分类汇总起来,对英语学习大有好处。