测测各个词表的覆盖率

赞。我估计这回的结果会比较有趣。
我目前词汇量就在1万左右,我感觉看小说的话单词覆盖率在75%左右,字数覆盖率在95%左右。

词典搞完了, 词条数如下, xxald是ccald, oald, cald, mwaled, 凡是含有特殊符号数字空格的词条都过滤出去了.

xxald-list.txt
95716
95716
xxald-ode-list.txt
197190
197190
ode-list.txt
145864
145864
jmyh-xsj-cald-oald-slim.txt
1355074
1355074
oed-list.txt
629553
629553

可见词表再怎么做,都会覆盖不到的生词。这应该是英语本身的特性。像哈利波特Occlumency,中文是大脑封闭术,中文看起来不像是生词,但英文就像新的词汇。 Hippogriff,中文是鹰马,很真观,英文就看不出个所以然。中英文造词方式不一,纠结单词全面覆盖,真的没完没了。

从上面统计看来,我认为,以专八大纲词表为主,扣除简单的三千词,还有一些偏僻的词汇,然后用coca排序,假如,coca词表没有的词汇,再用iweb补充,剩下不足一万用coca补足,这样造出的万词表就很好了。

专八词表是国内英语考试天花板,很多本科生都背个这词表,就去考试了。简单的三千词,背单词过程中自然会记住,不必特地背。偏僻的词汇,是选择材料问题,各种材料偏僻词汇不一,应该尽量追求普遍的词汇,所以专八词频三万之后的词,应该删除,用词频表的单词补上。剩下不足一万继续补足。Coca没有的单词,用iweb的排序插入。如此一来,应该算是比较理想的词表。有了coca的词频覆盖率,也解决coca的缺词,专八的词表背了,也额外补充一些专八词表以外还算常见的单词。

1 个赞

楼主是出于兴趣在做统计的事情。确实经常能看到多少词汇量能覆盖多少的说法,究竟是不是这样呢,自己测算一下,这是很好的精神。
另外这统计还能显露各个词表的适用性。只是目前由于词典词表的污染,结果差别太大,等这轮修正后就可靠多了。

@Zillionaire

每个人的需求不一样, 肯定会有自己的偏好. 你这个是比较好的兼顾考试和实用的方案. 具体词表怎么做, 其实我还没想好.

@zambast

在主贴的google sheets更新了.

coca 20k没覆盖的词

这个uncover里有大量的词形变换和英美不同拼写的词,以我的水平随便扫一眼都能认出一些来,看来要完善这个统计还需要完善词形变换。
字数覆盖率1万词对应93~94%,已经很符合其他人的统计了。
往上到2万只提高到96%,再往上到3万只提高到97%,边际递减极为明显。
你这个bigfreq在3万这个数据上优于同类,挺有价值了。
另外就是几个有名的词表名副其实,牛津5000、CEFR、麦克米伦7500、朗文9000都有很好的表现。令人惊奇的是CET-4也非常不错。
另外collins五星的统计有点问题,应该是四星包括五星、三星包括四五星……。同理,CET-6也应该包括CET-4,表现也应该不错。而TOEFL、GRE、IELTS由于去除了基础词汇,覆盖率必然低,显得没有意义。

最终版了. 果然还是coca最出色, 绕了一圈, 回到原点.

证明了COCA20000性价比最高,功莫大焉 :+1:
我觉得COCA的词频效果胜过iWeb和gngram的原因可能是COCA毕竟还是比较传统的语料库,而后两者采集网络来源的数据,网上的东西可能太杂,用正经的出版物去匹配就效果差一些了。

所以背单词还是coca, 词表确定了, 下一步研究下wordnet, 看看能不能给单词分组.
我这还有一些ted字幕, mmmm, 再分析一下…

你也可以搞分类测算,比如挑10本小说测一下,挑10本政经类的测一下,挑100部电影测一下,挑200集电视剧测一下,可玩的花样多了 :laughing:
不过词典词表的结果趋同,就没必要挨个测了,挑一个词典词表测就行。

挑小猪佩奇测算一下:grimacing:
我感觉生活化会话就只有这个的台词翻译的认真

字幕好找就测一下

sledge(雪橇),是牛津3000的单词,却被COCA排到2万2千之后,因为,美式用sled。aubergine,COCA是4万后的单词了,这个单词美式叫eggplant(茄子)。petrol英式很常见,加油站 petrol station,但COCA已经排2万3千之后,这个字美式叫gasoline或简称gas。

COCA全称Corpus of Contemporary American English,就是美式现代英语语料库。所以,美式的或近代的资料覆盖高,英式的、老式的,就覆盖少。像 petrol,iweb排7千8,可见是非常常用的单词。因此,除了coca,应该配合自己的需求,再利用相关的词表补充。

2 个赞

有道理, 感谢. :+1:

我来抬一下杠啊 :smile:
道理是这个道理,不过头两个例子不太合适
sledge不是牛津3000里的词,我心想我明明背过牛津3000却毫无印象,特地去查了一下。sled在COCA里也要排到11000以后。同样地,eggplant在COCA里也得排到10000以后。
究其原因,我觉得是这些词频毕竟是基于语料库,而语料库的来源又是书面为主,且总量庞大,除了少数极其常用的以外,一些日常生活用词反而会靠后。所以在背完高频词之后,还需要用图片词典一类的补充一下生活用词。

2 个赞

我昨天还说小猪佩奇,这个绝对够生活化:laughing:

1 个赞

sledge是查墨墨背单词的词本,得到在牛津3000的结果,其实,我也不是很确定。sledge这个词,我是看英语视频看到的,也不是背单词表获得。

其实背单词表就是一辅助,帮助基本的理解,很多单词我都是阅读、看视频得知。像是gibbon(长臂猿)就是在西游记英文版第一集看到的,因为在第一集,所以印象特别深刻。

有没有优化后的词汇表 谢谢分享

词表都在这里: 单词表分享

1 个赞

主要是下载字幕很麻烦, 我找了一个Friends 10季 测了一下. 基本都差不多.

2 个赞