词频词典: The BNC-COCA Lists

词汇是外语学习的一个非常重要的环节,但要设定好学习预期却并非易事。英语中大约有 5 万个单词[1],这是一个难以达成的上界——即使日耕不辍地每天学习 10 个单词,完整过完一遍也至少需要 13.7 年的时间。大多数母语人士的词汇量在 2 万左右,这是一个相对更加实际的安全上界。能够如此大幅缩减的一个重要原因是每个单词的重要性是不同的,比如仅单个单词 the 便覆盖了任意英文文本的 7%;前 1000 个最高频的词汇能够覆盖大多数英文文本的 80%;一个 10 万字的英文小说大约包含 5000 个单词,然而其中一半的单词只会出现一次。也就是说大多数单词都是非常低频的,少数高频单词占据了英文的绝大部分,Zipf 经验定律就是对这一现象的数学化表达。

更进一步地,词汇相关的学术研究根据词频将单词进一步划分为高频、中频、低频这三类。高频单词的量级一般为 3000 个,比如经典的牛津 3000 词,久负盛名的牛津高阶词典便是仅使用这 3000 个核心单词给出每个单词的英文释义。中频单词一般在 4000-9000 这个范围,10,000 往上则属于低频。以单词表「The BNC-COCA Lists」为例,高频单词加上专有名词,能够覆盖 95% 的英文文本(其中专有名词大约占 2%);再加上中频单词,便能够覆盖 98%,这意味着每 50 个单词里约有一个低频单词,即使不认识在大多数情况下也不影响继续阅读。高频、中频往往是一些通用词汇,从低频开始,会出现一些技术单词、日常使用中难以碰到的词。中频和低频的的界限也是母语人士词汇的一个分水岭,在这个阶段,由于每个人的兴趣、专业领域不同,积累的词汇种类也开始出现分叉,对一个人非常高频的技术词汇可能是另一个人的低频单词。这些研究带给我们的启发是:
1/ 将精力优先投入在更重要的词汇上具有非常高的投入产出比
2/ 高频、中频适合刻意学习,而低频单词则更适合在大量的阅读与听力中潜移默化地习得

刻意学习的方式比如找到一个包含词频分类信息的单词表,按照高频、中频的顺序依次学习每个单词。对于偏爱沉浸式方法的学习者,则可以在遇到生词时查询该单词的词频分类信息,若属于高频、中频,便加入记忆卡片进行重点学习与记忆。「The BNC-COCA Lists」这个包含词频分类、按照实用程度循序渐进、由语言研究学者精心设计的单词表就是一个绝佳的辅助工具。它是一个包含 30 组单词列表的集合,其中每组包含 1000 个单词。这里单词的单位使用的是词族 (word family),即由一个单词的基本形式及其各种词形变化所组成的集合,比如 take (基本形式), took、taken (过去式、过去分词)、takes (第三人称单数)、retake (前缀) 这些单词都同属于 take 这个词族。其中第一组的 1000 个单词 (记为 1k) 和第二组 1000 个单词 (记为 2k,后同),使用了一个特殊设计的、包含 1000 万个词元的语料构建。其中 600 万语料来自英式与美式英语的口语表达,包括电影、电视等,剩余 400 万为书面表达,包括面向儿童的文字、小说等。另外,数字、星期被直接放进了 1k 组、月份被放入到了 2k 组,尽管从词频上不一定如此。生存词汇 (在国外旅游或短暂生活一段时间所需的必备词汇,如打招呼、购物、问路等) 也被硬性地包含在了前 2k 中。3k 及以上的组则根据 COCA (当代美国英语语料库) 和 BNC (英国国家语料库) 的词频构建,并排除掉已经出现在前 2k 的单词。

「The BNC-COCA Lists」可以从该词表的构建者 Paul Nation 的网站上免费获取。使用 WordFamilyFinder 可以快速地查询一个单词属于 30 组中的哪一组,并且它还额外提供了该词族的每个成员在 BNC 中的词频信息,从而能够对该单词的每种词形变化的出现频率有个大体的了解。但网页查询这种形式使用起来还是不如本地字典快速便捷,这里提供一个基于 WordFamilyFinder 所提供的数据制作的一个可以在本地使用的词典,包括可用于 MDict欧陆词典等的 .mdx 格式以及可用于 macOS 内置字典应用的 .dictionary 格式。词典的下载、制作代码可参阅该项目的 GitHub 页面

此外,还提供一个仅包含前 9k 的 .csv 格式的数据以方便对高、中频单词进行刻意学习:

其他补充信息:

  1. 文中使用的统计数据主要出自 Making and Using Word Lists for Language Learning and Teaching (Nation, 2016)Learning Vocabulary in Another Language (3rd Ed., Nation, 2022)
  2. 「The BNC-COCA Lists」是一个不断在完善中的词表,它的目标是提供 30 组单词列表,但目前还没有完全构建完毕。作者 Paul Nation 在网站上提供的是 25 组的版本,WordFamilyFinder 则增加了第 26-30 组的部分,虽然依然尚不完整 (每组不足 1000),但由于这部分是低频单词,所以在使用上的影响微乎其微。
  3. 「The BNC-COCA Lists」的词族判定基于词族分类的 Level-6,时态、人称、常用的前后缀这些词形变换都被囊括在内,因此这个词表也是目前最大的词族列表。
  4. 「The BNC-COCA Lists」还包含了 5 个额外的列表:(1) 专有名词;(2) 边缘词汇如 uh, um, meow;(3) 透明复合词如 notebook;(4) 缩写;(5) 外来词汇。这几类词本身易于识别,因此没有被放入上述提到的本地词典中。

  1. 单词的统计本身是一个复杂的命题,不同的统计单元、面向不同的用途都会得到不同的结果。此处的 5 万来自对词典「Webster’s Third New International Dictionary」的统计,这本拥有超过 45 万个条目的词典,包含 5.4 万个词族 (不包含复合词、专有名词、一些地方方言等) Goulden,
    Nation, & Read, 1990
    。这是一个相对有些过时的研究,毕竟语言本身的发展是动态的,但这里不再深究,因为 5 万已经是一个难以达成的上界。 ↩︎

14 个赞

欢迎新人~

2 个赞

一百万都不止:joy:

1 个赞

这里写得确实有点随意了,略去了一些关键的上下文信息。

单词的统计本身是一个复杂的命题,不同的统计单元、面向不同的用途都会得到不同的结果。此处的 5 万来自对词典「Webster’s Third New International Dictionary」的统计,这本拥有超过 45 万个条目的词典,包含 5.4 万个词族 (不包含复合词、专有名词、一些地方方言等) [Goulden,
Nation, & Read, 1990
]。这是一个相对有些过时的研究,毕竟语言本身的发展是动态的,但这里不再深究,因为 5 万已经是一个难以达成的上界。

(原文此处已做适当调整)

这种综合性的词频表有点意思,特别是把word family 总结在一起的
但是,我发现里面对国家地名类的专有名词基本不收录?
比如 China,America,Japan,pacific 等常见地名都没收录,不知是什么原因
是否没有 word family 的都不收录?那 China,Chinese 算不算一种 word family 呢

@sannuofy 它们同属于 china 这个词族。文中最后的其他信息里有提到「The BNC-COCA Lists」还包含了 5 个额外的列表,国家地名这类就是属于其中的「专有名词」列表,在第 31 组。但上文给出的词典里没有收录这部分。有需要的话,可以通过 WordFamilyFinder 在线查询或是参考 GitHub 提供的制作词典的方法加入这部分即可。

1 个赞

the-bnc-coca-lists(1-35).mdx (2.0 MB)
好词典,整个词族清清楚楚,最重要的是无论什么变形衍生都能索引到原词上,我要把它作为词形还原词典来用啊.
另外我把额外列表加上了,只是这样生成的高中低频次对于额外列表就没了意义,因为在30以后都被归为了low,仅仅方便检索专有名词啥的BNC词频吧。不过这个频率信息是绝对出现次数,然后有的词典又是频率高低排序,我刚开始解除词频词典,搞得我都不知道高的是高频还是低的是高频了,这类词典还是得了解一番用的什么什么排序方法,数据来源才能用啊,如果能想办法整合进去一些其他的词频信息就好了,比如核心词3000,柯林斯星级,A1C1,S\W这种更直观数据

1 个赞

Paul Nation 的网站资料有点缺憾:
10000词的txt打包文件中,好像是第7000还是第8000那一组少了2个,只有998个

另外,原 BNC-COCA Lists 把 bowled 作为 headword
不知道这个List中 headword 的认定标准究竟是什么

萨 ~对于我这种英语水平不高的来说,也没必要去细究了,作为一个快速浏览有哪些衍生词及使用频率的词典够用了,因为信息简洁并且多个变形都是索引到一个词头,所以我发现的最合适的用途是导入到anki里制卡用了。顺便再分享下去掉多余的html适合FastWQ导入anki的样式
the-bnc-coca-lists(1-35)-无HTM.mdx (1.9 MB)

1 个赞

下面这些也都是BNC_COCA_lists所谓的 headword ,如果硬说它们是形容词也行,问题是单独列这些 headword 的逻辑究竟在哪

liked
missed
owned
presented
rested
directed
lasted
rowed
founded
objected
boxed
briefed
fined
marched
peered
rocked
stuffed
subjected
typed
chaired

想要深究的话可以看看文末的补充信息,有一篇关于该列表所使用的词族定义的文献,也许会有所帮助。

那些词都被列入了5000以内的“词族”

这是首帖关于词族的介绍:

正常情况下,上面列的那些 headword 是不是应该直接归于相应的动词?

要么就是原作者自己创造出单独的一种过去式词族?

有没有可能原作者只是利用编程之便交叉组合出这么一个产物?那个25000的Excel表,他自己连5000词族以内的词都没有刷过一遍,看看是否具有合理性?

本来世界就是个巨大的草台班子,可能并不是外国人编的东西都可以不加思索的奉为圭臬吧

您要是想深究,可以好好读读参考文献,哪怕是花个几分钟去了解一下作者也行,也不至于给出如此不怀好意的无端猜测。