词频还是挺有参考价值的,至于说去掉杂七杂八的词,可以去比对词典。可以将主流的词典的词目合并出一个词条库,然后将词表中的词去撞库,凡是没有的就删掉,这样比按照字母数删除和删掉带连字符的词可靠得多。同时还有个好处,就是如果发现没有,尝试将首字母大写(也可以尝试全大写后,有助于保留特别常用的缩写词)去撞库,如果有就保留首字母大写的版本,这样可以解决一些词表倒手几次之后大写消失的问题。用这种办法将COCA60000、iWeb60000、Google Ngram30000、BNC、以及其他那些有名的词表(后述)清洗一遍放出来就挺有用了。
至于说词表合并,我觉得这种一般是为了分阶段背单词。我提一个建议方案。
第一阶段3000,将牛津3000、朗文3000、COCA/iWeb/Google Ngram/BNC(清洗后的)各3000合并。最终结果估计在4000~5000(接近5000)。
第二阶段6000,将牛津5000、麦克米伦75000、CEFR(大概在6500左右)、COCA/iWeb/Google Ngram/BNC各6000合并,最终结果估计在7000~8000。剔除第一阶段的词。
第三阶段10000,将朗文9000、四六级、考研、COCA/iWeb/Google Ngram/BNC各10000合并,最终结果估计在11000~12000。剔除前两个阶段的词。为什么考试词表到这个阶段才合并呢,因为我发现国内的考试词表选词偏学术,别看六级、考研不过是五六千词汇量的水准,实际上有大量(差不多1000)是词频在1万左右的。另一方面,如果目的是为了应试,那么直接背考试词表就行了,没必要折腾词频词表。
第四阶段15000,将柯林斯1~5星(大概15000不到一点)、TOEFL、IELTS、COCA/iWeb/Google Ngram/BNC各15000合并,最终结果估计在17000~18000。剔除前三个阶段的词。为什么TOEFL、IELTS在这个阶段才选入呢,因为TOEFL、IELTS的词表来源不明,权威性存疑,按词频来看,里面偏难的词大概就在这个词频范围。另外,柯林斯的星级广受推崇,但我发现这个词表的年代悠久,5星~2星的星级标注与常见的词频差距极大,实在不适合早期合并,但是到了1万5这个水平,也就它了。
第五阶段25000,将COCA/iWeb/Google Ngram/BNC各25000合并,有名的词表还剩一个专四专八,愿意合并也可以,最终结果估计在23000~24000。剔除前四个阶段的词。基本上到这个阶段就够用了。
第六阶段40000,将GRE、COCA/iWeb/BNC/Google Ngram各40000合并,最终结果估计在37000~38000。剔除前五个阶段的词。GRE词表里的难词实在是太冷僻了,到这个阶段才加入。能背到这个阶段已经不是常人了。
第七阶段60000,将COCA/iWeb/BNC各60000合并,最终结果估计在50000多。剔除前六个阶段的词。没啥好说的了。
最后,如果觉得第一阶段跨度太大,还可以搞个第零阶段。这里就做减法,将牛津3000、朗文3000、高中词汇、COCA/iWeb/Google Ngram/BNC各3000中的交集提取出来,估计在2000~2500,这就是最基础的词汇了,可以用于基础太差的扫一遍,也可以用于当作平时的排除列表。
6 个赞