测测各个词表的覆盖率

如果要统计普适性的覆盖率,专有名词是绝对需要全面的排除的

原因很简单,想象一下,即便作为中文为母语的我们,就在大街上随便指着一个什么东西,我们都可能张口结舌叫不出来其具体的名字,只能用相近的类词表达,这样的东西随处可见,数不胜数

1 个赞

新版已经去除专有名词了,不限制单词出现次数,另外解析带连字符的词,由于查词典次数增加了,现在太耗时间了,统计单词要花70多分钟,计算覆盖率现在还不知道花多久,好像也要花1个多小时。

需要改成多进程模式了。

另外更新了subtlexus此表。

动词如pronounce、pronounced前者是"发音",后者是"显着的"这种极少数词义改变的,大部份词义没变的,其实也不值得选。动词三态应该只算原型一个。动词加ing,是语法知识,不能算新单词。

组合单词如raw-boned,不是"生骨",是"削瘦的",这种少数俚语的,大部份分析字面意义能理解的,也不能算一个单词。

quick、quickly这种形容词变副词的,其实也不能算一个,因为那是广义的语法知识。词头加un变否定,严格来说,也不是新单词。

专有名词除非意译,如南极北极、九大行星之类,音译的专有名词,也不值得背。

墨墨背单词六级词汇大纲约八千个,考研大纲约五千六百个,考研和六级选的材料都是学术期刊杂志的文章,考生也都能理解。Francis和Kucera研究指出,5000字,英文文本覆盖达88.6%(https://zhuanlan.zhihu.com/p/30422538?utm_id=0),理论上,10000词是可以覆盖9成了。剩下的就是靠阅读理解能力。

背1万单词,应该就能阅读了。最近,我看大卫•爱登堡解说的纪录片,也遇上一些生词。多数是一些偏僻的生物词,有些连词典都没有,极少数老派文诌诌的用词。不过,大致上都是常见单词。感觉不致于背1万词,覆盖率两、三成那么惨。

1 个赞

词汇量统计从来没有一个固定的标准。你这个是最简方案,即不管什么词都只认一个最初的原型;还有一个最宽方案,即词形变化都算新词。实际上各种统计口径极少采用最简方案或最宽方案,都是中间派。
大体上是基于两个原则。一是意义转变原则,即词形变换如果没有带来意思的改变,则不算新词,这就排除了绝大多数的名词复数和动词变化。但同时,例如加-ed,-ing变成的形容词只要意思变化或增加了,则算新词。
二是高词频原则,即一个词如果非常常用,则尽管它可能只是原型的词形变换,也算新词,例如一些-ly副词也会被收录词典当主词。
由于这两个原则的弹性很大,造成了各种统计方案统计出来的词汇量差别挺大。基本上我推荐采用词典标准,新词典基本上是词频+人工,一本好词典的专家肯定比自己强。但是各个词典也是标准不一,收词量少的词典倾向于简,收词量大的词典倾向于宽,我觉得选择收词量适中(六七万)的学习型词典较佳。

1 个赞

词形变化的问题主要是没法很好的处理, 只能当两个词, 基于规则的算法总是会碰到例外, 基于词库的算法又会碰到没有的.

常用词都是人工做的.

词典的精选词是如何选出来的不知道官方有说明没有, 柯林斯的星级词汇我就很难理解.

这是柯林斯部分单词举例.

柯林斯一星

-ware
A-road
AC
AD
AGM
Afro
Afro-Caribbean
Allah
Alzheimer’s Disease
American football
Antarctic
Attorney General
Aussie
BA
BC
BS
BSc

柯林斯0星

-'d
-'ll
-'m
-'re
-'s
-'ve
-ability
-able
-an
-appointed

1 个赞

不敢, 非语言学专业, 学英语来的. :sweat_smile:

1 个赞

已经更新了, 包含全部词表下载

我本以为去掉专有名词之后的结果会大为不同,但是看起来好像还是类似的结果。
我看了一下52万也没有的词,发现一个问题,里面大部分词似乎只能在The Little Dict里搜到。我觉得你的词典词表是否优待斟酌。
The Little Dict收录了大量网络来源的词,准确性是很成问题的,作为一个以查得率高出名的词典,这也无可厚非,反正也就是个参考。但是作为词典词表则明显不合适,我建议剔除这类词典,只选择可靠性高的词典,比如牛津朗文这些。甚至于只选用学习型词典。

2 个赞

还有个有趣的地方是,尽管单词覆盖率非常违反直觉和其他文章所述,但是字数覆盖率则看起来正常,比如10000对应的是91%,尽管还是比其他人统计的低,但已经较为合理。相对应的,10000对应的单词覆盖率只有可怜的22%。我觉得这是因为那些词依旧是干扰词,而这些干扰词因为出现频率低,所以对于字数覆盖率的影响就比较小了。所以我觉得当前的计算方式干扰词剔除得还不够。

是的,tld 量太大,难免有收录错的词。
我记得tld 有收录错别字版的急性心肌炎(英语我忘了)

1 个赞

没想到竟然是美语影视字幕的 subtlexus 覆盖率拔得头筹,在词频和单词覆盖率相近的时候,全文覆盖率最高

1 个赞

@mdict6 @zambast 我用的词典是OALD+CALD+新世纪(外研社)+简明英汉必应版

现在词表里没有的单词会尝试还原成原型, 这个受益的主要是考试词表这种人工选的.

我觉得差不多了, 数字只是个相对参考嘛. 如果想屏蔽掉不常见的词, 可以直接筛掉那些只出现一次的词, 我一会就试一下.

1 个赞

现在好像不是了

这个 简明英汉必应版 就是 TLD的母本,合并了一大堆奇奇怪怪的词典,包含大量的专业词典和网络词典,首先专业词典就该排除,其次网络词典更是完全不可靠。你把这个词典排除,只用OALD和CALD,结果就会完全不同。
不管怎么说,词汇量10000的情况下单词覆盖率只有22%是完全不可能的,数字差别太大参考价值就低了。
一开始我以为结果差别这么大的原因是专用术语,现在看来主要问题在于词典词表被污染了。

但是那些确实是单词啊, 如果用小词典, 岂不是等于排除一些词, 我总感觉哪里不对

现在变成 coca 了,貌似 coca 30000 是最佳平衡点,比较符合英语母语成人的词汇量级了

这些恰恰都是不该被包含的干扰词。比如lookin,多半是lookin’,也就是looking,只要有人工判断一定会剔除掉,但是TLD就收录了。还有xiaokang,你觉得这种词真有必要收录吗。你之前觉得iWeb、COCA采集的词表质量不高,然后质量更低的TLD的词表又觉得该认为是单词。。
我们统计词汇量的目的是为了判断无障碍阅读普通文章的水平,所以专业术语、过于冷僻的词就是无意义的(同样是专业术语,一些生活中能见到的常用专业词就会被学习型词典收录,所以不必担心背不到)。所以我认为高阶学习型词典(收词量7~10万)就够,再不行你采用大型母语词典(30~50万)都比TLD强几条街吧。你那个列表里的绝大多数词是连收词量50万的ODE都查不到的,我是看不到任何能证明TLD可靠性的地方。

有一些干扰词, 但也有一些冷僻的词, 如direwolf, rakhi, moschata.

我过滤掉只出现一次的词(大概1万左右), 数据下降了

摘要
bigfreq_260000 71 99 260000
bigfreq_270000 71 99 270000
bigfreq_280000 71 99 280000
bigfreq_290000 71 99 290000
bigfreq_300000 71 99 300000
bigfreq_310000 71 99 310000
bigfreq_320000 71 99 320000
bigfreq_330000 71 99 330000
bigfreq_340000 71 99 340000
bigfreq_350000 71 99 350000
bigfreq_360000 71 99 360000
bigfreq_370000 71 99 370000
bigfreq_380000 71 99 380000
bigfreq_390000 71 99 390000
bigfreq_400000 71 99 400000
bigfreq_410000 71 99 410000
bigfreq_420000 71 99 420000
bigfreq_430000 71 99 430000
bigfreq_440000 71 99 440000
bigfreq_450000 71 99 450000
bigfreq_460000 71 99 460000
bigfreq_470000 71 99 470000
bigfreq_480000 71 99 480000
bigfreq_490000 71 99 490000
bigfreq_500000 71 99 500000
bigfreq_510000 71 99 510000
bigfreq_520000 71 99 520000
bigfreq_527439 71 99 527439
gngram_120000 70 99 120000
bigfreq_130000 70 99 130000
gngram_130000 70 99 130000
bigfreq_140000 70 99 140000
gngram_140000 70 99 140000
bigfreq_150000 70 99 150000
gngram_150000 70 99 150000
bigfreq_160000 70 99 160000
gngram_160000 70 99 160000
bigfreq_170000 70 99 170000
gngram_170000 70 99 170000
bigfreq_180000 70 99 180000
gngram_180000 70 99 180000
bigfreq_190000 70 99 190000
gngram_190000 70 99 190000
bigfreq_200000 70 99 200000
gngram_200000 70 99 200000
bigfreq_210000 70 99 210000
gngram_210000 70 99 210000
bigfreq_220000 70 99 220000
gngram_220000 70 99 220000
bigfreq_230000 70 99 230000
gngram_230000 70 99 230000
bigfreq_240000 70 99 240000
gngram_240000 70 99 240000
bigfreq_250000 70 99 250000
gngram_250000 70 99 250000
gngram_260000 70 99 260000
gngram_270000 70 99 270000
gngram_280000 70 99 280000
gngram_290000 70 99 290000
gngram_300000 70 99 300000
gngram_310000 70 99 310000
gngram_320000 70 99 320000
gngram_330000 70 99 330000
gngram_340000 70 99 340000
gngram_350000 70 99 350000
gngram_360000 70 99 360000
gngram_370000 70 99 370000
gngram_380000 70 99 380000
gngram_390000 70 99 390000
gngram_400000 70 99 400000
gngram_410000 70 99 410000
gngram_420000 70 99 420000
gngram_430000 70 99 430000
gngram_440000 70 99 440000
gngram_450000 70 99 450000
gngram_458343 70 99 458343
bigfreq_90000 69 99 90000
gngram_90000 69 99 90000
bigfreq_100000 69 99 100000
gngram_100000 69 99 100000
bigfreq_110000 69 99 110000
gngram_110000 69 99 110000
bigfreq_120000 69 99 120000
bigfreq_80000 68 99 80000
gngram_80000 68 99 80000
bnc_180000 68 99 180000
bnc_190000 68 99 190000
bnc_194370 68 99 194370
coca60k_60000 67 97 60000
iweb_60000 67 98 60000
coca60k_60023 67 97 60023
iweb_61394 67 98 61394
bigfreq_70000 67 98 70000
gngram_70000 67 99 70000
subtlexus_70000 67 98 70000
subtlexus_74286 67 98 74286
bnc_150000 67 98 150000
bnc_160000 67 99 160000
bnc_170000 67 99 170000
coca60k_50000 66 97 50000
bigfreq_60000 66 98 60000
gngram_60000 66 98 60000
subtlexus_60000 66 98 60000
bnc_120000 66 98 120000
bnc_130000 66 98 130000
bnc_140000 66 98 140000
iweb_50000 65 97 50000
bnc_110000 65 98 110000
coca60k_40000 64 97 40000
bigfreq_50000 64 98 50000
gngram_50000 64 98 50000
subtlexus_50000 64 98 50000
bnc_90000 64 98 90000
bnc_100000 64 98 100000
iweb_40000 63 97 40000
bnc_80000 62 98 80000
coca60k_30000 61 97 30000
bigfreq_40000 61 98 40000
subtlexus_40000 61 98 40000
bnc_70000 61 98 70000
gngram_40000 60 98 40000
iweb_30000 59 97 30000
bnc_60000 59 97 60000
bigfreq_30000 56 97 30000
subtlexus_30000 56 97 30000
bnc_50000 56 97 50000
coca60k_20000 54 96 20000
gngram_30000 54 97 30000
iweb_20000 52 96 20000
bnc_40000 52 97 40000
bigfreq_20000 48 96 20000
subtlexus_20000 47 96 20000
bnc_30000 47 96 30000
gngram_20000 45 96 20000
coca60k_10000 39 94 10000
bnc_20000 38 94 20000
iweb_10000 37 93 10000
bigfreq_10000 33 93 10000
subtlexus_10000 32 93 10000
gngram_10000 30 92 10000
bnc_10000 25 91 10000

direwolf在TLD查到的意思就是冰原狼,多半是冰火里的生造词。dire wolf倒是存在,惧狼(更新世狼的灭绝种),只有学古生物的才知道。这种词真心不要采集。你听我劝把TLD抛弃吧 :joy:

有意思.

正在搞词典呢,
我现在打算再测两回, 一回是用ccald, oald, cald, mwaled, 一回用ode.