测测各个词表的覆盖率

zambast · 2022 年10 月 27 日 17:27

赞。我估计这回的结果会比较有趣。
我目前词汇量就在1万左右，我感觉看小说的话单词覆盖率在75%左右，字数覆盖率在95%左右。

舒服员 · 2022 年10 月 27 日 18:06

词典搞完了, 词条数如下, xxald是ccald, oald, cald, mwaled, 凡是含有特殊符号数字空格的词条都过滤出去了.

xxald-list.txt
95716
95716
xxald-ode-list.txt
197190
197190
ode-list.txt
145864
145864
jmyh-xsj-cald-oald-slim.txt
1355074
1355074
oed-list.txt
629553
629553

Zillionaire · 2022 年10 月 27 日 20:24

可见词表再怎么做，都会覆盖不到的生词。这应该是英语本身的特性。像哈利波特Occlumency，中文是大脑封闭术，中文看起来不像是生词，但英文就像新的词汇。 Hippogriff，中文是鹰马，很真观，英文就看不出个所以然。中英文造词方式不一，纠结单词全面覆盖，真的没完没了。

从上面统计看来，我认为，以专八大纲词表为主，扣除简单的三千词，还有一些偏僻的词汇，然后用coca排序，假如，coca词表没有的词汇，再用iweb补充，剩下不足一万用coca补足，这样造出的万词表就很好了。

专八词表是国内英语考试天花板，很多本科生都背个这词表，就去考试了。简单的三千词，背单词过程中自然会记住，不必特地背。偏僻的词汇，是选择材料问题，各种材料偏僻词汇不一，应该尽量追求普遍的词汇，所以专八词频三万之后的词，应该删除，用词频表的单词补上。剩下不足一万继续补足。Coca没有的单词，用iweb的排序插入。如此一来，应该算是比较理想的词表。有了coca的词频覆盖率，也解决coca的缺词，专八的词表背了，也额外补充一些专八词表以外还算常见的单词。

zambast · 2022 年10 月 28 日 02:17

楼主是出于兴趣在做统计的事情。确实经常能看到多少词汇量能覆盖多少的说法，究竟是不是这样呢，自己测算一下，这是很好的精神。
另外这统计还能显露各个词表的适用性。只是目前由于词典词表的污染，结果差别太大，等这轮修正后就可靠多了。

舒服员 · 2022 年10 月 28 日 09:15

@Zillionaire

每个人的需求不一样, 肯定会有自己的偏好. 你这个是比较好的兼顾考试和实用的方案. 具体词表怎么做, 其实我还没想好.

@zambast

在主贴的google sheets更新了.

coca 20k没覆盖的词

zambast · 2022 年10 月 28 日 09:44

这个uncover里有大量的词形变换和英美不同拼写的词，以我的水平随便扫一眼都能认出一些来，看来要完善这个统计还需要完善词形变换。
字数覆盖率1万词对应93~94%，已经很符合其他人的统计了。
往上到2万只提高到96%，再往上到3万只提高到97%，边际递减极为明显。
你这个bigfreq在3万这个数据上优于同类，挺有价值了。
另外就是几个有名的词表名副其实，牛津5000、CEFR、麦克米伦7500、朗文9000都有很好的表现。令人惊奇的是CET-4也非常不错。
另外collins五星的统计有点问题，应该是四星包括五星、三星包括四五星……。同理，CET-6也应该包括CET-4，表现也应该不错。而TOEFL、GRE、IELTS由于去除了基础词汇，覆盖率必然低，显得没有意义。

舒服员 · 2022 年10 月 29 日 09:02

最终版了. 果然还是coca最出色, 绕了一圈, 回到原点.

zambast · 2022 年10 月 29 日 11:12

证明了COCA20000性价比最高，功莫大焉
我觉得COCA的词频效果胜过iWeb和gngram的原因可能是COCA毕竟还是比较传统的语料库，而后两者采集网络来源的数据，网上的东西可能太杂，用正经的出版物去匹配就效果差一些了。

舒服员 · 2022 年10 月 29 日 12:34

所以背单词还是coca, 词表确定了, 下一步研究下wordnet, 看看能不能给单词分组.
我这还有一些ted字幕, mmmm, 再分析一下…

zambast · 2022 年10 月 29 日 13:13

你也可以搞分类测算，比如挑10本小说测一下，挑10本政经类的测一下，挑100部电影测一下，挑200集电视剧测一下，可玩的花样多了
不过词典词表的结果趋同，就没必要挨个测了，挑一个词典词表测就行。

mdict6 · 2022 年10 月 29 日 13:42

挑小猪佩奇测算一下
我感觉生活化会话就只有这个的台词翻译的认真

舒服员 · 2022 年10 月 29 日 14:21

字幕好找就测一下

Zillionaire · 2022 年10 月 30 日 03:47

sledge(雪橇)，是牛津3000的单词，却被COCA排到2万2千之后，因为，美式用sled。aubergine，COCA是4万后的单词了，这个单词美式叫eggplant(茄子)。petrol英式很常见，加油站 petrol station，但COCA已经排2万3千之后，这个字美式叫gasoline或简称gas。

COCA全称Corpus of Contemporary American English，就是美式现代英语语料库。所以，美式的或近代的资料覆盖高，英式的、老式的，就覆盖少。像 petrol，iweb排7千8，可见是非常常用的单词。因此，除了coca，应该配合自己的需求，再利用相关的词表补充。

舒服员 · 2022 年10 月 30 日 04:35

有道理, 感谢.

zambast · 2022 年10 月 30 日 05:49

我来抬一下杠啊
道理是这个道理，不过头两个例子不太合适
sledge不是牛津3000里的词，我心想我明明背过牛津3000却毫无印象，特地去查了一下。sled在COCA里也要排到11000以后。同样地，eggplant在COCA里也得排到10000以后。
究其原因，我觉得是这些词频毕竟是基于语料库，而语料库的来源又是书面为主，且总量庞大，除了少数极其常用的以外，一些日常生活用词反而会靠后。所以在背完高频词之后，还需要用图片词典一类的补充一下生活用词。

mdict6 · 2022 年10 月 30 日 05:59

我昨天还说小猪佩奇，这个绝对够生活化

Zillionaire · 2022 年10 月 30 日 06:36

sledge是查墨墨背单词的词本，得到在牛津3000的结果，其实，我也不是很确定。sledge这个词，我是看英语视频看到的，也不是背单词表获得。

其实背单词表就是一辅助，帮助基本的理解，很多单词我都是阅读、看视频得知。像是gibbon(长臂猿)就是在西游记英文版第一集看到的，因为在第一集，所以印象特别深刻。

dodo · 2022 年10 月 30 日 07:06

有没有优化后的词汇表谢谢分享

舒服员 · 2022 年10 月 30 日 11:07

词表都在这里: 单词表分享

舒服员 · 2022 年10 月 30 日 14:35

主要是下载字幕很麻烦, 我找了一个Friends 10季测了一下. 基本都差不多.