如果要统计普适性的覆盖率,专有名词是绝对需要全面的排除的
原因很简单,想象一下,即便作为中文为母语的我们,就在大街上随便指着一个什么东西,我们都可能张口结舌叫不出来其具体的名字,只能用相近的类词表达,这样的东西随处可见,数不胜数
如果要统计普适性的覆盖率,专有名词是绝对需要全面的排除的
原因很简单,想象一下,即便作为中文为母语的我们,就在大街上随便指着一个什么东西,我们都可能张口结舌叫不出来其具体的名字,只能用相近的类词表达,这样的东西随处可见,数不胜数
新版已经去除专有名词了,不限制单词出现次数,另外解析带连字符的词,由于查词典次数增加了,现在太耗时间了,统计单词要花70多分钟,计算覆盖率现在还不知道花多久,好像也要花1个多小时。
需要改成多进程模式了。
另外更新了subtlexus此表。
动词如pronounce、pronounced前者是"发音",后者是"显着的"这种极少数词义改变的,大部份词义没变的,其实也不值得选。动词三态应该只算原型一个。动词加ing,是语法知识,不能算新单词。
组合单词如raw-boned,不是"生骨",是"削瘦的",这种少数俚语的,大部份分析字面意义能理解的,也不能算一个单词。
quick、quickly这种形容词变副词的,其实也不能算一个,因为那是广义的语法知识。词头加un变否定,严格来说,也不是新单词。
专有名词除非意译,如南极北极、九大行星之类,音译的专有名词,也不值得背。
墨墨背单词六级词汇大纲约八千个,考研大纲约五千六百个,考研和六级选的材料都是学术期刊杂志的文章,考生也都能理解。Francis和Kucera研究指出,5000字,英文文本覆盖达88.6%(https://zhuanlan.zhihu.com/p/30422538?utm_id=0),理论上,10000词是可以覆盖9成了。剩下的就是靠阅读理解能力。
背1万单词,应该就能阅读了。最近,我看大卫•爱登堡解说的纪录片,也遇上一些生词。多数是一些偏僻的生物词,有些连词典都没有,极少数老派文诌诌的用词。不过,大致上都是常见单词。感觉不致于背1万词,覆盖率两、三成那么惨。
词汇量统计从来没有一个固定的标准。你这个是最简方案,即不管什么词都只认一个最初的原型;还有一个最宽方案,即词形变化都算新词。实际上各种统计口径极少采用最简方案或最宽方案,都是中间派。
大体上是基于两个原则。一是意义转变原则,即词形变换如果没有带来意思的改变,则不算新词,这就排除了绝大多数的名词复数和动词变化。但同时,例如加-ed,-ing变成的形容词只要意思变化或增加了,则算新词。
二是高词频原则,即一个词如果非常常用,则尽管它可能只是原型的词形变换,也算新词,例如一些-ly副词也会被收录词典当主词。
由于这两个原则的弹性很大,造成了各种统计方案统计出来的词汇量差别挺大。基本上我推荐采用词典标准,新词典基本上是词频+人工,一本好词典的专家肯定比自己强。但是各个词典也是标准不一,收词量少的词典倾向于简,收词量大的词典倾向于宽,我觉得选择收词量适中(六七万)的学习型词典较佳。
词形变化的问题主要是没法很好的处理, 只能当两个词, 基于规则的算法总是会碰到例外, 基于词库的算法又会碰到没有的.
常用词都是人工做的.
词典的精选词是如何选出来的不知道官方有说明没有, 柯林斯的星级词汇我就很难理解.
这是柯林斯部分单词举例.
-ware
A-road
AC
AD
AGM
Afro
Afro-Caribbean
Allah
Alzheimer’s Disease
American football
Antarctic
Attorney General
Aussie
BA
BC
BS
BSc
-'d
-'ll
-'m
-'re
-'s
-'ve
-ability
-able
-an
-appointed
不敢, 非语言学专业, 学英语来的.
已经更新了, 包含全部词表下载
我本以为去掉专有名词之后的结果会大为不同,但是看起来好像还是类似的结果。
我看了一下52万也没有的词,发现一个问题,里面大部分词似乎只能在The Little Dict里搜到。我觉得你的词典词表是否优待斟酌。
The Little Dict收录了大量网络来源的词,准确性是很成问题的,作为一个以查得率高出名的词典,这也无可厚非,反正也就是个参考。但是作为词典词表则明显不合适,我建议剔除这类词典,只选择可靠性高的词典,比如牛津朗文这些。甚至于只选用学习型词典。
还有个有趣的地方是,尽管单词覆盖率非常违反直觉和其他文章所述,但是字数覆盖率则看起来正常,比如10000对应的是91%,尽管还是比其他人统计的低,但已经较为合理。相对应的,10000对应的单词覆盖率只有可怜的22%。我觉得这是因为那些词依旧是干扰词,而这些干扰词因为出现频率低,所以对于字数覆盖率的影响就比较小了。所以我觉得当前的计算方式干扰词剔除得还不够。
是的,tld 量太大,难免有收录错的词。
我记得tld 有收录错别字版的急性心肌炎(英语我忘了)
没想到竟然是美语影视字幕的 subtlexus 覆盖率拔得头筹,在词频和单词覆盖率相近的时候,全文覆盖率最高
@mdict6 @zambast 我用的词典是OALD+CALD+新世纪(外研社)+简明英汉必应版
现在词表里没有的单词会尝试还原成原型, 这个受益的主要是考试词表这种人工选的.
我觉得差不多了, 数字只是个相对参考嘛. 如果想屏蔽掉不常见的词, 可以直接筛掉那些只出现一次的词, 我一会就试一下.
现在好像不是了
这个 简明英汉必应版 就是 TLD的母本,合并了一大堆奇奇怪怪的词典,包含大量的专业词典和网络词典,首先专业词典就该排除,其次网络词典更是完全不可靠。你把这个词典排除,只用OALD和CALD,结果就会完全不同。
不管怎么说,词汇量10000的情况下单词覆盖率只有22%是完全不可能的,数字差别太大参考价值就低了。
一开始我以为结果差别这么大的原因是专用术语,现在看来主要问题在于词典词表被污染了。
但是那些确实是单词啊, 如果用小词典, 岂不是等于排除一些词, 我总感觉哪里不对
现在变成 coca 了,貌似 coca 30000 是最佳平衡点,比较符合英语母语成人的词汇量级了
这些恰恰都是不该被包含的干扰词。比如lookin,多半是lookin’,也就是looking,只要有人工判断一定会剔除掉,但是TLD就收录了。还有xiaokang,你觉得这种词真有必要收录吗。你之前觉得iWeb、COCA采集的词表质量不高,然后质量更低的TLD的词表又觉得该认为是单词。。
我们统计词汇量的目的是为了判断无障碍阅读普通文章的水平,所以专业术语、过于冷僻的词就是无意义的(同样是专业术语,一些生活中能见到的常用专业词就会被学习型词典收录,所以不必担心背不到)。所以我认为高阶学习型词典(收词量7~10万)就够,再不行你采用大型母语词典(30~50万)都比TLD强几条街吧。你那个列表里的绝大多数词是连收词量50万的ODE都查不到的,我是看不到任何能证明TLD可靠性的地方。
有一些干扰词, 但也有一些冷僻的词, 如direwolf, rakhi, moschata.
我过滤掉只出现一次的词(大概1万左右), 数据下降了
bigfreq_260000 | 71 | 99 | 260000 |
---|---|---|---|
bigfreq_270000 | 71 | 99 | 270000 |
bigfreq_280000 | 71 | 99 | 280000 |
bigfreq_290000 | 71 | 99 | 290000 |
bigfreq_300000 | 71 | 99 | 300000 |
bigfreq_310000 | 71 | 99 | 310000 |
bigfreq_320000 | 71 | 99 | 320000 |
bigfreq_330000 | 71 | 99 | 330000 |
bigfreq_340000 | 71 | 99 | 340000 |
bigfreq_350000 | 71 | 99 | 350000 |
bigfreq_360000 | 71 | 99 | 360000 |
bigfreq_370000 | 71 | 99 | 370000 |
bigfreq_380000 | 71 | 99 | 380000 |
bigfreq_390000 | 71 | 99 | 390000 |
bigfreq_400000 | 71 | 99 | 400000 |
bigfreq_410000 | 71 | 99 | 410000 |
bigfreq_420000 | 71 | 99 | 420000 |
bigfreq_430000 | 71 | 99 | 430000 |
bigfreq_440000 | 71 | 99 | 440000 |
bigfreq_450000 | 71 | 99 | 450000 |
bigfreq_460000 | 71 | 99 | 460000 |
bigfreq_470000 | 71 | 99 | 470000 |
bigfreq_480000 | 71 | 99 | 480000 |
bigfreq_490000 | 71 | 99 | 490000 |
bigfreq_500000 | 71 | 99 | 500000 |
bigfreq_510000 | 71 | 99 | 510000 |
bigfreq_520000 | 71 | 99 | 520000 |
bigfreq_527439 | 71 | 99 | 527439 |
gngram_120000 | 70 | 99 | 120000 |
bigfreq_130000 | 70 | 99 | 130000 |
gngram_130000 | 70 | 99 | 130000 |
bigfreq_140000 | 70 | 99 | 140000 |
gngram_140000 | 70 | 99 | 140000 |
bigfreq_150000 | 70 | 99 | 150000 |
gngram_150000 | 70 | 99 | 150000 |
bigfreq_160000 | 70 | 99 | 160000 |
gngram_160000 | 70 | 99 | 160000 |
bigfreq_170000 | 70 | 99 | 170000 |
gngram_170000 | 70 | 99 | 170000 |
bigfreq_180000 | 70 | 99 | 180000 |
gngram_180000 | 70 | 99 | 180000 |
bigfreq_190000 | 70 | 99 | 190000 |
gngram_190000 | 70 | 99 | 190000 |
bigfreq_200000 | 70 | 99 | 200000 |
gngram_200000 | 70 | 99 | 200000 |
bigfreq_210000 | 70 | 99 | 210000 |
gngram_210000 | 70 | 99 | 210000 |
bigfreq_220000 | 70 | 99 | 220000 |
gngram_220000 | 70 | 99 | 220000 |
bigfreq_230000 | 70 | 99 | 230000 |
gngram_230000 | 70 | 99 | 230000 |
bigfreq_240000 | 70 | 99 | 240000 |
gngram_240000 | 70 | 99 | 240000 |
bigfreq_250000 | 70 | 99 | 250000 |
gngram_250000 | 70 | 99 | 250000 |
gngram_260000 | 70 | 99 | 260000 |
gngram_270000 | 70 | 99 | 270000 |
gngram_280000 | 70 | 99 | 280000 |
gngram_290000 | 70 | 99 | 290000 |
gngram_300000 | 70 | 99 | 300000 |
gngram_310000 | 70 | 99 | 310000 |
gngram_320000 | 70 | 99 | 320000 |
gngram_330000 | 70 | 99 | 330000 |
gngram_340000 | 70 | 99 | 340000 |
gngram_350000 | 70 | 99 | 350000 |
gngram_360000 | 70 | 99 | 360000 |
gngram_370000 | 70 | 99 | 370000 |
gngram_380000 | 70 | 99 | 380000 |
gngram_390000 | 70 | 99 | 390000 |
gngram_400000 | 70 | 99 | 400000 |
gngram_410000 | 70 | 99 | 410000 |
gngram_420000 | 70 | 99 | 420000 |
gngram_430000 | 70 | 99 | 430000 |
gngram_440000 | 70 | 99 | 440000 |
gngram_450000 | 70 | 99 | 450000 |
gngram_458343 | 70 | 99 | 458343 |
bigfreq_90000 | 69 | 99 | 90000 |
gngram_90000 | 69 | 99 | 90000 |
bigfreq_100000 | 69 | 99 | 100000 |
gngram_100000 | 69 | 99 | 100000 |
bigfreq_110000 | 69 | 99 | 110000 |
gngram_110000 | 69 | 99 | 110000 |
bigfreq_120000 | 69 | 99 | 120000 |
bigfreq_80000 | 68 | 99 | 80000 |
gngram_80000 | 68 | 99 | 80000 |
bnc_180000 | 68 | 99 | 180000 |
bnc_190000 | 68 | 99 | 190000 |
bnc_194370 | 68 | 99 | 194370 |
coca60k_60000 | 67 | 97 | 60000 |
iweb_60000 | 67 | 98 | 60000 |
coca60k_60023 | 67 | 97 | 60023 |
iweb_61394 | 67 | 98 | 61394 |
bigfreq_70000 | 67 | 98 | 70000 |
gngram_70000 | 67 | 99 | 70000 |
subtlexus_70000 | 67 | 98 | 70000 |
subtlexus_74286 | 67 | 98 | 74286 |
bnc_150000 | 67 | 98 | 150000 |
bnc_160000 | 67 | 99 | 160000 |
bnc_170000 | 67 | 99 | 170000 |
coca60k_50000 | 66 | 97 | 50000 |
bigfreq_60000 | 66 | 98 | 60000 |
gngram_60000 | 66 | 98 | 60000 |
subtlexus_60000 | 66 | 98 | 60000 |
bnc_120000 | 66 | 98 | 120000 |
bnc_130000 | 66 | 98 | 130000 |
bnc_140000 | 66 | 98 | 140000 |
iweb_50000 | 65 | 97 | 50000 |
bnc_110000 | 65 | 98 | 110000 |
coca60k_40000 | 64 | 97 | 40000 |
bigfreq_50000 | 64 | 98 | 50000 |
gngram_50000 | 64 | 98 | 50000 |
subtlexus_50000 | 64 | 98 | 50000 |
bnc_90000 | 64 | 98 | 90000 |
bnc_100000 | 64 | 98 | 100000 |
iweb_40000 | 63 | 97 | 40000 |
bnc_80000 | 62 | 98 | 80000 |
coca60k_30000 | 61 | 97 | 30000 |
bigfreq_40000 | 61 | 98 | 40000 |
subtlexus_40000 | 61 | 98 | 40000 |
bnc_70000 | 61 | 98 | 70000 |
gngram_40000 | 60 | 98 | 40000 |
iweb_30000 | 59 | 97 | 30000 |
bnc_60000 | 59 | 97 | 60000 |
bigfreq_30000 | 56 | 97 | 30000 |
subtlexus_30000 | 56 | 97 | 30000 |
bnc_50000 | 56 | 97 | 50000 |
coca60k_20000 | 54 | 96 | 20000 |
gngram_30000 | 54 | 97 | 30000 |
iweb_20000 | 52 | 96 | 20000 |
bnc_40000 | 52 | 97 | 40000 |
bigfreq_20000 | 48 | 96 | 20000 |
subtlexus_20000 | 47 | 96 | 20000 |
bnc_30000 | 47 | 96 | 30000 |
gngram_20000 | 45 | 96 | 20000 |
coca60k_10000 | 39 | 94 | 10000 |
bnc_20000 | 38 | 94 | 20000 |
iweb_10000 | 37 | 93 | 10000 |
bigfreq_10000 | 33 | 93 | 10000 |
subtlexus_10000 | 32 | 93 | 10000 |
gngram_10000 | 30 | 92 | 10000 |
bnc_10000 | 25 | 91 | 10000 |
direwolf在TLD查到的意思就是冰原狼,多半是冰火里的生造词。dire wolf倒是存在,惧狼(更新世狼的灭绝种),只有学古生物的才知道。这种词真心不要采集。你听我劝把TLD抛弃吧
有意思.
正在搞词典呢,
我现在打算再测两回, 一回是用ccald, oald, cald, mwaled, 一回用ode.