做了一个所谓的"最后的单词表", 请大家帮忙看看

最近突然想要背单词, 把coca, bnc, 和常见考试的单词表汇总到了一起, 搞了这么一份, 请大家看看, 这个单词表有没有说明问题, 如果可以, 就开始制作了.

制作方式

底本
coca 60000, BNC num o5, 初高中四六级考研GRE托福(来源不明)

修正
coca: 修正大小写问题(网上的coca表大小写信息都丢失了)
BNC: 没有错误, 但垃圾信息太多
初高中四六级考研GRE托福: 各种奇怪错误, 但数量不多

过滤以下

  1. 过滤掉重复的项目和特殊符号的单词如she/he
  2. 一个字符的项目
  3. 类似 a-, -a, a., .a, a’, 'a, a1, 1a 的两个字符项目
  4. 过滤掉包含两个(含)以上连字符的项目
  5. 如果带连字符的两个单词已经在表里, 过滤掉这个词, coca 60000里有10000个左右的带连字符的词, 这个比例太惊人, 有必要大规模删减
删掉的单词部分预览

e-mail
long-term
so-called
mm-hmm
easy-going
T-shirt
get-together
health-care
full-time
mid-autumn
self-esteem
short-term
well-known

  1. 使用porter算法计算lemma, 删掉有相同词干的第二个单词,
删掉的部分单词

one
its
us
others
including
nation
develop
difference
building
news
personal
likely
officer
recently

  1. 过滤掉在简明英汉必应版+新世纪英汉里找不到的项目, coca和BNC都是机器采集的, 包含很多垃圾信息

合并
以coca为基础, 把考试单词排在coca 第2000个单词后边, 把bnc单词的前20000(BNC修正后有15万, 过滤后还有6万多)个插入到单词表里.

最终是将近4万个单词.

不知道大家对这个单词表有什么看法
coca-exams-bnc-818.txt (342.4 KB)

8 Likes

我把它粘进了Excel看了一下:39849
当年宋维钢就基于COCA 60000开发了一门词汇课程叫《词霸天下38000词汇速记》,看来也是有根据的。

2 Likes
4 Likes

很奇怪这是按什么顺序排列的呢?好像是由易到难?

2 Likes

单词表做好能否分享一下?!谢谢

1 Like

这活干得真漂亮!
有点建议是带连字符的词的处理似乎有点太激进了。虽然很多情况下是两个词的词义总和,但有时候并不是。个人建议还是尽量保留,这些词虽然好背,但有时候背过跟没背过还是有点区别的。可以删掉那些已存在去掉连字符的词。
另外现在好像更推崇iWeb和Google Ngram,楼主也可以考虑一下合并。

谢谢,删掉已存在去掉连字符的词?意思是保留连字符版本,删掉独立的词吗? iweb和Google的我再看看。

3 Likes

按照词频啊啊

当然会分享出来

1 Like

我是说比如已经存在了longtime,那么long-time可以删掉,这种一般来说意思是一致的。但是其他的带连字符的词,比如你删除列表中的第一个e-mail,在不存在email的情况下就还是保留比较好吧。

1 Like

这部分删掉的多数是合成词,合成词又大多为单词字面意思的叠加;同时,也会删掉一些非合成词,这些非合成词往往是前缀+单词,常见带-的前缀如pre-, co-, neo-,还有则是一些比较专业的来自希腊语的前缀,往往构成的是学科专业名词,例如socio-。

建议:可删除含“-”两个以上的,这些多数为词义简单叠加的词汇,例如twenty-first-century;然后在含有一个“-”又含有相同单词的一组词组删除词频数较高的那些,留下其中少量词频数较低(常用)的词汇,例如first-place, second-place, third-place, … ; twenty-century, nineteen-century, eighteen-century, … ;或进行人工筛选。

有些合成词带-的和不带-的,词义词性有区别,例如#10举的longtime adj./adv.,long-time adj. (常见为形容词,也有可能用作名词,具体看语境)

这部分删掉的多数是加了前缀或后缀的派生词,或同根词,例如删掉了difference,可能保留了different,删掉了recently,可能保留了recent。

建议全部保留。

1 Like

考试表里带连字符的建议都保留。

1 Like

其实我觉得没必要纠结带连字符的合成词是否保留,都留着呗,反正这种合成词好背,放anki里一点就过,浪费不了一秒钟。

我也认为以iweb为底本做词频排序比较好。感觉iweb比较接地气,和日常使用频率比较符合。

统一回复下, iWeb和Google Ngram, 会参考, 其实我一开始只是想从coca 20000里背, 结果最后越搞越复杂.

  1. 2个以上的-
    这个确实直接删掉, 我查看过, 都是简单的合成词
  2. 存在了longtime,那么long-time删掉
    这种确实不错
  3. 一个"-"的first-place, second-place, third-place 这种, 人工筛选工作量应该很大, coca的连字符单词在一万左右, 包括删除同根词主要是为了控制词条数量.
  4. 考试词表基本是原样合并的
    接下来会重新搞搞 iWeb和Google Ngram, 考虑出两个版本, 一个是比较激进的尽可能减小词条数量, 一个是尽可能保留词条.

考虑重新组织下代码, 然后把未合并的各个词表也发出来, 方便大家做其他用途.

BTW, 不知道哪里有权威可靠的考试词表可供使用

2 Likes

我最近也是心血来潮想重拾英语在背单词,我的感觉是词表好找,找到词表后用FastWQ制卡后用anki背,由于anki的记忆曲线原理,效果也算不错,但说实话远远称不上满意。主要就是义项太多,干扰大,背了忘忘了背,不符合anki的简单化原则。什么样的情况下anki效果最好呢,就是一条对一条,正面一个单词或词组,背面一个释义,这种卡刷起来速度飞快,记得也牢。但实际情况是很难达成这样的效果,因为大量的单词(尤其是单词,词组好得多)都是多义的,很多意思又处于语境之中,单纯死记一个中文义项意义不大,哪怕仅仅只是为了混个脸熟都差强人意。
实际上是有符合这种原则的办法的,就是搭配,一般来说,将单词/词组加上搭配词,组成(伪)词组,基本上就能消除多义性,而这种(伪)词组往往又只有2~5个单词,远比例句好记,并没有超出简单化原则的要求。如果将要背的单词都做成这样的搭配卡片,虽然卡片数一下子翻10~20倍,本来要背1万词的没准现在要背10~20万张卡片,但实际花的时间更少,因为刷卡的效率能提升很多倍,效果也更好,也符合下一阶段的句子、段落的阅读中的语块识别的原则。
但是现在流行的共享卡组以及制卡方案都没有这种的。而一些有名的搭配词典(比如牛津搭配词典)也只适合读而很难搞成卡组。

3 Likes

考试词表

来自墨墨

1 Like

消除多义性这种伪搭配有点意思

那么问题就来到怎样成批量的去生成这些伪词组,并且配上适当的释义
除了现成的搭配词典,一时还想不到合适的办法
倒是可以与语料库找那种前后几个词这样的搭配,可是这样又没有释义
那么就只能去批量爬例句,并且选取相对简短的

其它还有什么好办法吗?

权威考试词表高中、四六级、考研都有官方的,托福雅思GRE都是机构编的不尽相同

2 Likes

我最早的一个版本是这样的, 音标, 两个释义, 词根词源 有词根词源的比较好背, 也比较好理解单词.
之前甚至专门写了一个基于web的工具用来帮助自己手动简化释义义项, 虽然几万个单词手工过滤一遍费时间, 不过作家写本小说也几十万字不是吗?

最近发现the little dict有释义项的使用频率, 我觉得可以利用起来.