做了一个所谓的"最后的单词表", 请大家帮忙看看

zambast · 2022 年10 月 23 日 11:35

词频还是挺有参考价值的，至于说去掉杂七杂八的词，可以去比对词典。可以将主流的词典的词目合并出一个词条库，然后将词表中的词去撞库，凡是没有的就删掉，这样比按照字母数删除和删掉带连字符的词可靠得多。同时还有个好处，就是如果发现没有，尝试将首字母大写（也可以尝试全大写后，有助于保留特别常用的缩写词）去撞库，如果有就保留首字母大写的版本，这样可以解决一些词表倒手几次之后大写消失的问题。用这种办法将COCA60000、iWeb60000、Google Ngram30000、BNC、以及其他那些有名的词表（后述）清洗一遍放出来就挺有用了。
至于说词表合并，我觉得这种一般是为了分阶段背单词。我提一个建议方案。
第一阶段3000，将牛津3000、朗文3000、COCA/iWeb/Google Ngram/BNC（清洗后的）各3000合并。最终结果估计在4000~5000（接近5000）。
第二阶段6000，将牛津5000、麦克米伦75000、CEFR（大概在6500左右）、COCA/iWeb/Google Ngram/BNC各6000合并，最终结果估计在7000~8000。剔除第一阶段的词。
第三阶段10000，将朗文9000、四六级、考研、COCA/iWeb/Google Ngram/BNC各10000合并，最终结果估计在11000~12000。剔除前两个阶段的词。为什么考试词表到这个阶段才合并呢，因为我发现国内的考试词表选词偏学术，别看六级、考研不过是五六千词汇量的水准，实际上有大量（差不多1000）是词频在1万左右的。另一方面，如果目的是为了应试，那么直接背考试词表就行了，没必要折腾词频词表。
第四阶段15000，将柯林斯1~5星（大概15000不到一点）、TOEFL、IELTS、COCA/iWeb/Google Ngram/BNC各15000合并，最终结果估计在17000~18000。剔除前三个阶段的词。为什么TOEFL、IELTS在这个阶段才选入呢，因为TOEFL、IELTS的词表来源不明，权威性存疑，按词频来看，里面偏难的词大概就在这个词频范围。另外，柯林斯的星级广受推崇，但我发现这个词表的年代悠久，5星~2星的星级标注与常见的词频差距极大，实在不适合早期合并，但是到了1万5这个水平，也就它了。
第五阶段25000，将COCA/iWeb/Google Ngram/BNC各25000合并，有名的词表还剩一个专四专八，愿意合并也可以，最终结果估计在23000~24000。剔除前四个阶段的词。基本上到这个阶段就够用了。
第六阶段40000，将GRE、COCA/iWeb/BNC/Google Ngram各40000合并，最终结果估计在37000~38000。剔除前五个阶段的词。GRE词表里的难词实在是太冷僻了，到这个阶段才加入。能背到这个阶段已经不是常人了。
第七阶段60000，将COCA/iWeb/BNC各60000合并，最终结果估计在50000多。剔除前六个阶段的词。没啥好说的了。
最后，如果觉得第一阶段跨度太大，还可以搞个第零阶段。这里就做减法，将牛津3000、朗文3000、高中词汇、COCA/iWeb/Google Ngram/BNC各3000中的交集提取出来，估计在2000~2500，这就是最基础的词汇了，可以用于基础太差的扫一遍，也可以用于当作平时的排除列表。