COCA
美国一九九〇年至今的当代语料库,充分覆盖了出版物。但网络上该词表来源多到混乱。有必要先理清。
首先看官方,必须明确官网其实有两种词频表,一个是大家都熟悉的 COCA,其词表又有三个形式,即数量分别为 5000,20000,60000,其中 5000 免费。 该 COCA 表会在 part of speech 彼此独立的前提下,计所有常规形态变化为同一个单词。但另一种词表 COCA+ 100000 就不一样了,不光把所有常规形态变化都独立看待,而且还结合了其他语料库 CHAE,BNC,CASO。此外官网有个比较坑的地方是没说清楚 COCA+ 100000 和 COCA 很不一样,甚至有时候连加号都省略了,那个卖词表的网页就如此。
于是论坛上不同人拿着不一样的词频表做并自称 COCA 词表,我估计其中有些人都没搞清楚他所以为的 COCA 其实是 COCA+ 100000. 也难怪有人提问为什么词频不一样。
好在官网有 sample,我自己拿 sample 的 rank 在所有论坛 COCA 词表都试了一遍。结论如下:
首先 COCA 官网的 sample rank/freq 与论坛对应 COCA 词表都会有细微的差异,我猜因为官网每年都会更新词表。好在这影响微乎其微。
基于 COCA 的有 fuxy526 2016 年制作的 COCA Frequency 60000 忠实保留了 part of speech 分别独立的形式,且能显示 genre 分布表格。
2015 年,cracode 基于 COCA+ 100000 制作了号称 36 万词频的表
2015 年,jijizhazha 又基于 cracode 的基础上制作了 BNC+ANC+COCA 词频,GitHub 上的 ZZ WordFreq 项目也是它,但当事人把 part of speech 彼此独立的特点抛弃掉了,即针对每一个单词只取最常用 part of speech 的那部分,重新排名。当事人被盗号后,又以 lgmcw 名称 先后于 2016 年更新词频,于 [2018 年追加 Sound 发音库,优化排版] 和 2019 年抛弃 ANC,新增 Economist 和二十万短语词频,Oxford 3000,各种考试词表更新该词表。如果该最新词表能彼此独立对待 part of speech,并给出每个词表的准确来源,就太完美了。
对于有志深入美国文化的学生,该 COCA 有非常高的参考价值。可惜正规渠道需要花钱买表,民间来源就上面那些了。即 COCA Frequency 60000,ZZ WordFreq(淘汰),BNC+ANC+COCA(淘汰),Sound+ANC+BNC+COCA(淘汰),Sound++。
简明英汉字典增强版
也有 COCA 词表,应该也基于 COCA 而制作,其词频和 fuxy526 2016 的 COCA Frequency 60000 并不一样,大概是因为制作年份不同的缘故。此外还列出了是否为中考高考四级六级考研雅思托福GRE词汇。来源欠透明。由于 Sound+BNC+COCA+iWeb 已包含考试词表,该字典可以只作为备用英汉字典而排在后面。
wordtag.py
我自己在 GitHub 上拿来在 Goldendict 上用的脚本 ,可以显示单词属于什么考试范围,原理就是爬欧陆词典在线网站的数据,后者的词表来源当然不明。淘汰。
Oxford 3000/5000 以及其他表
我爱死牛津了,该词表对初学者特别友好。
其他词表
大学四六级其实官方考试大纲就有精确的词表;考研英语考试大纲懒得去找了,反正我也不会去考。
网上很多雅思托福词表的来源欠清楚,包括 Sound++
Sound++中的 BNC 可谓 Britain English 语料库;iWeb 是网络最大最新的语料库,偏流行;Economist 顾名思义。
其实官方 Economist 有 GRE 词表,似乎可是并没有公开发表,需要自己付费去学习。
我自己找了 Word Made Power Easy 的词表,可是网上公开的似乎都不全。