做了一个所谓的"最后的单词表", 请大家帮忙看看

舒服员 · 2022 年8 月 17 日 17:55

最近突然想要背单词, 把coca, bnc, 和常见考试的单词表汇总到了一起, 搞了这么一份, 请大家看看, 这个单词表有没有说明问题, 如果可以, 就开始制作了.

制作方式

底本
coca 60000, BNC num o5, 初高中四六级考研GRE托福(来源不明)

修正
coca: 修正大小写问题(网上的coca表大小写信息都丢失了)
BNC: 没有错误, 但垃圾信息太多
初高中四六级考研GRE托福: 各种奇怪错误, 但数量不多

过滤以下

过滤掉重复的项目和特殊符号的单词如she/he
一个字符的项目
类似 a-, -a, a., .a, a’, 'a, a1, 1a 的两个字符项目
过滤掉包含两个(含)以上连字符的项目
如果带连字符的两个单词已经在表里, 过滤掉这个词, coca 60000里有10000个左右的带连字符的词, 这个比例太惊人, 有必要大规模删减

删掉的单词部分预览

e-mail
long-term
so-called
mm-hmm
easy-going
T-shirt
get-together
health-care
full-time
mid-autumn
self-esteem
short-term
well-known

使用porter算法计算lemma, 删掉有相同词干的第二个单词,

删掉的部分单词

one
its
us
others
including
nation
develop
difference
building
news
personal
likely
officer
recently

过滤掉在简明英汉必应版+新世纪英汉里找不到的项目, coca和BNC都是机器采集的, 包含很多垃圾信息

合并
以coca为基础, 把考试单词排在coca 第2000个单词后边, 把bnc单词的前20000(BNC修正后有15万, 过滤后还有6万多)个插入到单词表里.

最终是将近4万个单词.

不知道大家对这个单词表有什么看法
coca-exams-bnc-818.txt (342.4 KB)

shiruxue · 2022 年8 月 17 日 18:32

我把它粘进了Excel看了一下：39849！
当年宋维钢就基于COCA 60000开发了一门词汇课程叫《词霸天下38000词汇速记》，看来也是有根据的。

Vim · 2022 年8 月 17 日 21:57

aimdict · 2022 年8 月 17 日 22:44

很奇怪这是按什么顺序排列的呢？好像是由易到难？

dodo · 2022 年8 月 17 日 23:53

单词表做好能否分享一下？！谢谢

zambast · 2022 年8 月 18 日 02:26

这活干得真漂亮！
有点建议是带连字符的词的处理似乎有点太激进了。虽然很多情况下是两个词的词义总和，但有时候并不是。个人建议还是尽量保留，这些词虽然好背，但有时候背过跟没背过还是有点区别的。可以删掉那些已存在去掉连字符的词。
另外现在好像更推崇iWeb和Google Ngram，楼主也可以考虑一下合并。

舒服员 · 2022 年8 月 18 日 04:04

谢谢，删掉已存在去掉连字符的词？意思是保留连字符版本，删掉独立的词吗？ iweb和Google的我再看看。

舒服员 · 2022 年8 月 18 日 04:07

按照词频啊啊

舒服员 · 2022 年8 月 18 日 04:07

当然会分享出来

zambast · 2022 年8 月 18 日 05:04

我是说比如已经存在了longtime，那么long-time可以删掉，这种一般来说意思是一致的。但是其他的带连字符的词，比如你删除列表中的第一个e-mail，在不存在email的情况下就还是保留比较好吧。

shiruxue · 2022 年8 月 18 日 06:29

这部分删掉的多数是合成词，合成词又大多为单词字面意思的叠加；同时，也会删掉一些非合成词，这些非合成词往往是前缀+单词，常见带-的前缀如pre-, co-, neo-，还有则是一些比较专业的来自希腊语的前缀，往往构成的是学科专业名词，例如socio-。

建议：可删除含“-”两个以上的，这些多数为词义简单叠加的词汇，例如twenty-first-century；然后在含有一个“-”又含有相同单词的一组词组删除词频数较高的那些，留下其中少量词频数较低（常用）的词汇，例如first-place, second-place, third-place, … ; twenty-century, nineteen-century, eighteen-century, … ；或进行人工筛选。

有些合成词带-的和不带-的，词义词性有区别，例如#10举的longtime adj./adv.，long-time adj. （常见为形容词，也有可能用作名词，具体看语境）

这部分删掉的多数是加了前缀或后缀的派生词，或同根词，例如删掉了difference，可能保留了different，删掉了recently，可能保留了recent。

建议全部保留。

shiruxue · 2022 年8 月 18 日 06:42

考试表里带连字符的建议都保留。

zambast · 2022 年8 月 18 日 06:58

其实我觉得没必要纠结带连字符的合成词是否保留，都留着呗，反正这种合成词好背，放anki里一点就过，浪费不了一秒钟。

Zillionaire · 2022 年8 月 18 日 11:26

我也认为以iweb为底本做词频排序比较好。感觉iweb比较接地气，和日常使用频率比较符合。

舒服员 · 2022 年8 月 18 日 14:06

统一回复下, iWeb和Google Ngram, 会参考, 其实我一开始只是想从coca 20000里背, 结果最后越搞越复杂.

2个以上的-
这个确实直接删掉, 我查看过, 都是简单的合成词
存在了longtime，那么long-time删掉
这种确实不错
一个"-"的first-place, second-place, third-place 这种, 人工筛选工作量应该很大, coca的连字符单词在一万左右, 包括删除同根词主要是为了控制词条数量.
考试词表基本是原样合并的
接下来会重新搞搞 iWeb和Google Ngram, 考虑出两个版本, 一个是比较激进的尽可能减小词条数量, 一个是尽可能保留词条.

考虑重新组织下代码, 然后把未合并的各个词表也发出来, 方便大家做其他用途.

BTW, 不知道哪里有权威可靠的考试词表可供使用

zambast · 2022 年8 月 18 日 14:43

我最近也是心血来潮想重拾英语在背单词，我的感觉是词表好找，找到词表后用FastWQ制卡后用anki背，由于anki的记忆曲线原理，效果也算不错，但说实话远远称不上满意。主要就是义项太多，干扰大，背了忘忘了背，不符合anki的简单化原则。什么样的情况下anki效果最好呢，就是一条对一条，正面一个单词或词组，背面一个释义，这种卡刷起来速度飞快，记得也牢。但实际情况是很难达成这样的效果，因为大量的单词（尤其是单词，词组好得多）都是多义的，很多意思又处于语境之中，单纯死记一个中文义项意义不大，哪怕仅仅只是为了混个脸熟都差强人意。
实际上是有符合这种原则的办法的，就是搭配，一般来说，将单词/词组加上搭配词，组成（伪）词组，基本上就能消除多义性，而这种（伪）词组往往又只有2~5个单词，远比例句好记，并没有超出简单化原则的要求。如果将要背的单词都做成这样的搭配卡片，虽然卡片数一下子翻10~20倍，本来要背1万词的没准现在要背10~20万张卡片，但实际花的时间更少，因为刷卡的效率能提升很多倍，效果也更好，也符合下一阶段的句子、段落的阅读中的语块识别的原则。
但是现在流行的共享卡组以及制卡方案都没有这种的。而一些有名的搭配词典（比如牛津搭配词典）也只适合读而很难搞成卡组。

poorich · 2022 年8 月 18 日 15:31

考试词表

来自墨墨

sannuofy · 2022 年8 月 18 日 16:05

消除多义性这种伪搭配有点意思

那么问题就来到怎样成批量的去生成这些伪词组，并且配上适当的释义
除了现成的搭配词典，一时还想不到合适的办法
倒是可以与语料库找那种前后几个词这样的搭配，可是这样又没有释义
那么就只能去批量爬例句，并且选取相对简短的

其它还有什么好办法吗？

shiruxue · 2022 年8 月 18 日 16:20

权威考试词表高中、四六级、考研都有官方的，托福雅思GRE都是机构编的不尽相同

舒服员 · 2022 年8 月 18 日 16:43

我最早的一个版本是这样的, 音标, 两个释义, 词根词源有词根词源的比较好背, 也比较好理解单词.
之前甚至专门写了一个基于web的工具用来帮助自己手动简化释义义项, 虽然几万个单词手工过滤一遍费时间, 不过作家写本小说也几十万字不是吗?

最近发现the little dict有释义项的使用频率, 我觉得可以利用起来.