做了一个所谓的"最后的单词表", 请大家帮忙看看

可以用excel表格,单词一列,后面一列列例如COCA排序号、iWeb排序号、考试词汇等等。至于序号,可以以某个排序为准,比如按iWeb排序。
另外,我不建议过滤啥“垃圾词”,比如n’t这种缩写可以去掉,但是楼主之前说的带连字符的,我觉得根本没必要排除。如果说是二十年前靠词汇书背单词确实简单词会干扰,但基本上现在都是用anki背单词吧,有anki这种软件辅助,简单词根本不会造成什么干扰,第一次出现,一秒刷过,然后4天后再出现,一秒刷过,然后可能就是几周后,然后一两月后,然后几个月后,根本浪费不了什么时间。
反倒是词表本身的质量是否可靠,网上很多词表经过各种“处理”,最常见的问题就是专有名词的大写丢失。
另外,我其实不建议纯粹按词频背单词,跟乱序差不多,就算按词频背,也建议比如5000个一档,然后按字母顺序,这样至少一些同族词、同源词还可能在比较靠近的位置,这样显然效率更高。其实词汇量达到5000以上,就该用词根背单词了,即同根词放在一起背,这样效率更高。词频表更适合后期扫一遍避免遗漏,毕竟词根总结的缺漏很多。

1 个赞

用的Python的zip_longest融合的,比如

a b c
D e f
G H
融合后
a d g b e h c f

先解决背什么,再解决怎么背的问题, :grinning:根据词根分组,好像很难,楼上发的wordnet可能有用,它可以显示词与词之间关系,但好像是词义上的,没有细看

背什么的问题,我觉得词表的前20000是足够了,在此基础上背短语、习语,尤其是作为难点的短语动词,必要性显然超过2万后,把这些搞通了再考虑2万以后的。

1 个赞

据统计,COCA词频表中的前13500词就已经覆盖了英语用词的99%。所以,重点应该是前10000词的检查吧。

1楼的考试词表的问题,貌似人名、地名之类的单词太多了。去背这些人名、地名的中文翻译,一点意义也没有。文章中,遇上人名、地名不翻中文也无碍。其实,楼主可以导入不背单词之类软件,自己检验看看,然后删掉前10000词的垃圾词,改正前10000词无法导入的部份。至于,10000词以后就随便了。

我感觉背词频表还是有用的。至少,背熟了,文章扫过去能大概知道意思,外国人叽哩呱啦说一串,也大概知道要表达什么。至于语法,我是整理语法句型的笔记,背到滚瓜烂熟。语言这种东西,就是一个语感吧。

1 个赞

背单词app有什么推荐的, 不背单词和anki, 之类的哪个好

不背单词,只要导入txt就好了,攒活动币攒多了可以开个会员,体验比较不错的,下滑自带柯林斯详解,词之间的关联感觉做的还不太行

anki,需要自己制作内容,找若干词典,按词表制作内容,比较吃技术,技术到位了可以非常契合自己。看楼主会代码,应该玩得转的,倒是若是制作出优异的anki卡牌还望不吝分享

我会试试的, 做出来肯定分享的.

2 个赞

说实话,anki真算不上什么好软件,布局混乱、名称诡异,一个功能单一的软件需要学两天才会用你能信。据说作为鼻祖的supermemo更难用。
但是(转折来了),目前没有可替代品,anki必然可以做出最适合自己的卡组来。

可以用欧陆词典背啊

Anki免费、开源,同时功能强大,能让用户及其灵活地构建任意的卡片,这样的优秀软件不常见。

所谓名称诡异,不知道是否指中文版anki?中文版的软件和手册都有很多翻译问题,概念混乱,强烈建议使用英文版,阅读英文版的指南手册,这样可避免此类问题。

我不否认anki的强大啊,我自己就是重度anki使用者,我只是在吐槽anki糟糕的UI设计而已。这帮子程序员当初说我们把supermemo的算法拿过来开发一个更开放更好用的软件吧,结果写出来的UI大概只有自己看得懂。我现在用anki也挺熟练啊,但是我还记得当初花两天才搞明白这么一个基本功能如此简单(只是刷卡而已嘛)的软件的使用,而我对这个软件的学习成本的预期是5分钟。术语混乱是anki本身就有的毛病,中文版可能加剧了这个问题,但不好把锅甩给它。随便举个例子吧,谁能让一个从来没接触过的用户分清Card和Note,然后定义卡片模板的不叫Template叫Cards。
不过吐槽归吐槽,我还是推荐没用过anki的同学使用,这点学习成本最终还是值得的。别浪费时间在那些抄了anki的国产背单词软件上。如果不是背单词而是背别的,那更是只有anki一个选择。
当然supermemo也有一批拥趸,而且这个据说算法改进十多版已经更加牛逼,只是我没用过不好评价,主要是supermemo没有能用的手机版(虽然不知道是不是官方出了一个手机版,但完全没有自主性基本不能用)。

准确名称如下:

image

================================

================================

2 个赞

背单词的app有很多,我主要是用欧路词典和不背单词,因为,我比较看重原声例句,想看看单词在语境如何使用。不背单词例句范围比较小且比较简单,可是可以做错题,回去看例句;欧路词典例句比较广,可是,做完题直接下一个单词,各有利弊。

其实,原声例句算是一种验证。像是contract,有感染的意思,如contract a disease。可是,The little dict

合同78契约9合约8订合同2婚约1缩小1缩短1

如果照这样看,有些人大概只会去背「合同」,可是,去看看欧路的原声例句,「收缩」和「感染」都是常用义。

另外如spec,The little dict给的是「细则55特别45」,实际上,是「规格」、「碰运气」、「眼镜」和「特别」。

我撤回之前对于带连字符的合成词的保留建议,确实发现很多机器采集的合成词根本词典都查不到,有可能是某个固定短语的一部分。
新的建议是拿一本收词量较大的学习型词典去撞,凡是词典里没有的都剔掉。

1 个赞

求考试专用的词汇表,例如四六级啊专四专八之类的词汇表。。。

活用搜索。只要搜索 词表 就能搜到这个帖子

我现在在犹豫要不要用机器收集的词频

词频还是挺有参考价值的,至于说去掉杂七杂八的词,可以去比对词典。可以将主流的词典的词目合并出一个词条库,然后将词表中的词去撞库,凡是没有的就删掉,这样比按照字母数删除和删掉带连字符的词可靠得多。同时还有个好处,就是如果发现没有,尝试将首字母大写(也可以尝试全大写后,有助于保留特别常用的缩写词)去撞库,如果有就保留首字母大写的版本,这样可以解决一些词表倒手几次之后大写消失的问题。用这种办法将COCA60000、iWeb60000、Google Ngram30000、BNC、以及其他那些有名的词表(后述)清洗一遍放出来就挺有用了。
至于说词表合并,我觉得这种一般是为了分阶段背单词。我提一个建议方案。
第一阶段3000,将牛津3000、朗文3000、COCA/iWeb/Google Ngram/BNC(清洗后的)各3000合并。最终结果估计在4000~5000(接近5000)。
第二阶段6000,将牛津5000、麦克米伦75000、CEFR(大概在6500左右)、COCA/iWeb/Google Ngram/BNC各6000合并,最终结果估计在7000~8000。剔除第一阶段的词。
第三阶段10000,将朗文9000、四六级、考研、COCA/iWeb/Google Ngram/BNC各10000合并,最终结果估计在11000~12000。剔除前两个阶段的词。为什么考试词表到这个阶段才合并呢,因为我发现国内的考试词表选词偏学术,别看六级、考研不过是五六千词汇量的水准,实际上有大量(差不多1000)是词频在1万左右的。另一方面,如果目的是为了应试,那么直接背考试词表就行了,没必要折腾词频词表。
第四阶段15000,将柯林斯1~5星(大概15000不到一点)、TOEFL、IELTS、COCA/iWeb/Google Ngram/BNC各15000合并,最终结果估计在17000~18000。剔除前三个阶段的词。为什么TOEFL、IELTS在这个阶段才选入呢,因为TOEFL、IELTS的词表来源不明,权威性存疑,按词频来看,里面偏难的词大概就在这个词频范围。另外,柯林斯的星级广受推崇,但我发现这个词表的年代悠久,5星~2星的星级标注与常见的词频差距极大,实在不适合早期合并,但是到了1万5这个水平,也就它了。
第五阶段25000,将COCA/iWeb/Google Ngram/BNC各25000合并,有名的词表还剩一个专四专八,愿意合并也可以,最终结果估计在23000~24000。剔除前四个阶段的词。基本上到这个阶段就够用了。
第六阶段40000,将GRE、COCA/iWeb/BNC/Google Ngram各40000合并,最终结果估计在37000~38000。剔除前五个阶段的词。GRE词表里的难词实在是太冷僻了,到这个阶段才加入。能背到这个阶段已经不是常人了。
第七阶段60000,将COCA/iWeb/BNC各60000合并,最终结果估计在50000多。剔除前六个阶段的词。没啥好说的了。
最后,如果觉得第一阶段跨度太大,还可以搞个第零阶段。这里就做减法,将牛津3000、朗文3000、高中词汇、COCA/iWeb/Google Ngram/BNC各3000中的交集提取出来,估计在2000~2500,这就是最基础的词汇了,可以用于基础太差的扫一遍,也可以用于当作平时的排除列表。

5 个赞

方案很详细, 很有参考价值.

用词典检查的思路不谋而合, 我现在用的四本词典检查: 简明英汉, 新世纪必应, cald, oald.源文件合并检查的, 脚本会尝试用大小写和连字符的不同组合方式去词典里查询.

最近没有搞词表, 想要去爬OED, 我发现它的词频比较好, 它是基于google ngram做的, 属于专家筛选过的了, 结果爬到2000多页爬不动了.

我想最好做成一个词表, 或者两个, 考试词表一个, 词频表一个.

至于分阶段, 可以自己分阶段背诵背, 我是这样觉得的.