做了一个所谓的"最后的单词表", 请大家帮忙看看

zambast · 2022 年9 月 8 日 03:44

可以用excel表格，单词一列，后面一列列例如COCA排序号、iWeb排序号、考试词汇等等。至于序号，可以以某个排序为准，比如按iWeb排序。
另外，我不建议过滤啥“垃圾词”，比如n’t这种缩写可以去掉，但是楼主之前说的带连字符的，我觉得根本没必要排除。如果说是二十年前靠词汇书背单词确实简单词会干扰，但基本上现在都是用anki背单词吧，有anki这种软件辅助，简单词根本不会造成什么干扰，第一次出现，一秒刷过，然后4天后再出现，一秒刷过，然后可能就是几周后，然后一两月后，然后几个月后，根本浪费不了什么时间。
反倒是词表本身的质量是否可靠，网上很多词表经过各种“处理”，最常见的问题就是专有名词的大写丢失。
另外，我其实不建议纯粹按词频背单词，跟乱序差不多，就算按词频背，也建议比如5000个一档，然后按字母顺序，这样至少一些同族词、同源词还可能在比较靠近的位置，这样显然效率更高。其实词汇量达到5000以上，就该用词根背单词了，即同根词放在一起背，这样效率更高。词频表更适合后期扫一遍避免遗漏，毕竟词根总结的缺漏很多。

舒服员 · 2022 年9 月 8 日 04:29

用的Python的zip_longest融合的，比如

a b c
D e f
G H
融合后
a d g b e h c f

舒服员 · 2022 年9 月 8 日 04:33

先解决背什么，再解决怎么背的问题，根据词根分组，好像很难，楼上发的wordnet可能有用，它可以显示词与词之间关系，但好像是词义上的，没有细看

zambast · 2022 年9 月 8 日 09:53

背什么的问题，我觉得词表的前20000是足够了，在此基础上背短语、习语，尤其是作为难点的短语动词，必要性显然超过2万后，把这些搞通了再考虑2万以后的。

Zillionaire · 2022 年9 月 8 日 12:23

据统计，COCA词频表中的前13500词就已经覆盖了英语用词的99%。所以，重点应该是前10000词的检查吧。

1楼的考试词表的问题，貌似人名、地名之类的单词太多了。去背这些人名、地名的中文翻译，一点意义也没有。文章中，遇上人名、地名不翻中文也无碍。其实，楼主可以导入不背单词之类软件，自己检验看看，然后删掉前10000词的垃圾词，改正前10000词无法导入的部份。至于，10000词以后就随便了。

我感觉背词频表还是有用的。至少，背熟了，文章扫过去能大概知道意思，外国人叽哩呱啦说一串，也大概知道要表达什么。至于语法，我是整理语法句型的笔记，背到滚瓜烂熟。语言这种东西，就是一个语感吧。

舒服员 · 2022 年9 月 8 日 12:40

背单词app有什么推荐的, 不背单词和anki, 之类的哪个好

poorich · 2022 年9 月 8 日 14:30

不背单词，只要导入txt就好了，攒活动币攒多了可以开个会员，体验比较不错的，下滑自带柯林斯详解，词之间的关联感觉做的还不太行

anki，需要自己制作内容，找若干词典，按词表制作内容，比较吃技术，技术到位了可以非常契合自己。看楼主会代码，应该玩得转的，倒是若是制作出优异的anki卡牌还望不吝分享

舒服员 · 2022 年9 月 8 日 16:09

我会试试的, 做出来肯定分享的.

zambast · 2022 年9 月 9 日 01:56

说实话，anki真算不上什么好软件，布局混乱、名称诡异，一个功能单一的软件需要学两天才会用你能信。据说作为鼻祖的supermemo更难用。
但是（转折来了），目前没有可替代品，anki必然可以做出最适合自己的卡组来。

gtxxeon · 2022 年9 月 9 日 02:11

可以用欧陆词典背啊

Vim · 2022 年9 月 9 日 02:41

Anki免费、开源，同时功能强大，能让用户及其灵活地构建任意的卡片，这样的优秀软件不常见。

所谓名称诡异，不知道是否指中文版anki？中文版的软件和手册都有很多翻译问题，概念混乱，强烈建议使用英文版，阅读英文版的指南手册，这样可避免此类问题。

zambast · 2022 年9 月 9 日 03:06

我不否认anki的强大啊，我自己就是重度anki使用者，我只是在吐槽anki糟糕的UI设计而已。这帮子程序员当初说我们把supermemo的算法拿过来开发一个更开放更好用的软件吧，结果写出来的UI大概只有自己看得懂。我现在用anki也挺熟练啊，但是我还记得当初花两天才搞明白这么一个基本功能如此简单（只是刷卡而已嘛）的软件的使用，而我对这个软件的学习成本的预期是5分钟。术语混乱是anki本身就有的毛病，中文版可能加剧了这个问题，但不好把锅甩给它。随便举个例子吧，谁能让一个从来没接触过的用户分清Card和Note，然后定义卡片模板的不叫Template叫Cards。
不过吐槽归吐槽，我还是推荐没用过anki的同学使用，这点学习成本最终还是值得的。别浪费时间在那些抄了anki的国产背单词软件上。如果不是背单词而是背别的，那更是只有anki一个选择。
当然supermemo也有一批拥趸，而且这个据说算法改进十多版已经更加牛逼，只是我没用过不好评价，主要是supermemo没有能用的手机版（虽然不知道是不是官方出了一个手机版，但完全没有自主性基本不能用）。

Vim · 2022 年9 月 9 日 05:15

准确名称如下：

================================

Zillionaire · 2022 年9 月 9 日 17:05

背单词的app有很多，我主要是用欧路词典和不背单词，因为，我比较看重原声例句，想看看单词在语境如何使用。不背单词例句范围比较小且比较简单，可是可以做错题，回去看例句；欧路词典例句比较广，可是，做完题直接下一个单词，各有利弊。

其实，原声例句算是一种验证。像是contract，有感染的意思，如contract a disease。可是，The little dict

合同78契约9合约8订合同2婚约1缩小1缩短1

如果照这样看，有些人大概只会去背「合同」，可是，去看看欧路的原声例句，「收缩」和「感染」都是常用义。

另外如spec，The little dict给的是「细则55特别45」，实际上，是「规格」、「碰运气」、「眼镜」和「特别」。

zambast · 2022 年10 月 22 日 03:57

我撤回之前对于带连字符的合成词的保留建议，确实发现很多机器采集的合成词根本词典都查不到，有可能是某个固定短语的一部分。
新的建议是拿一本收词量较大的学习型词典去撞，凡是词典里没有的都剔掉。

1寂静 · 2022 年10 月 22 日 07:12

求考试专用的词汇表，例如四六级啊专四专八之类的词汇表。。。

zambast · 2022 年10 月 22 日 10:11

活用搜索。只要搜索词表就能搜到这个帖子

舒服员 · 2022 年10 月 22 日 18:04

我现在在犹豫要不要用机器收集的词频

zambast · 2022 年10 月 23 日 11:35

词频还是挺有参考价值的，至于说去掉杂七杂八的词，可以去比对词典。可以将主流的词典的词目合并出一个词条库，然后将词表中的词去撞库，凡是没有的就删掉，这样比按照字母数删除和删掉带连字符的词可靠得多。同时还有个好处，就是如果发现没有，尝试将首字母大写（也可以尝试全大写后，有助于保留特别常用的缩写词）去撞库，如果有就保留首字母大写的版本，这样可以解决一些词表倒手几次之后大写消失的问题。用这种办法将COCA60000、iWeb60000、Google Ngram30000、BNC、以及其他那些有名的词表（后述）清洗一遍放出来就挺有用了。
至于说词表合并，我觉得这种一般是为了分阶段背单词。我提一个建议方案。
第一阶段3000，将牛津3000、朗文3000、COCA/iWeb/Google Ngram/BNC（清洗后的）各3000合并。最终结果估计在4000~5000（接近5000）。
第二阶段6000，将牛津5000、麦克米伦75000、CEFR（大概在6500左右）、COCA/iWeb/Google Ngram/BNC各6000合并，最终结果估计在7000~8000。剔除第一阶段的词。
第三阶段10000，将朗文9000、四六级、考研、COCA/iWeb/Google Ngram/BNC各10000合并，最终结果估计在11000~12000。剔除前两个阶段的词。为什么考试词表到这个阶段才合并呢，因为我发现国内的考试词表选词偏学术，别看六级、考研不过是五六千词汇量的水准，实际上有大量（差不多1000）是词频在1万左右的。另一方面，如果目的是为了应试，那么直接背考试词表就行了，没必要折腾词频词表。
第四阶段15000，将柯林斯1~5星（大概15000不到一点）、TOEFL、IELTS、COCA/iWeb/Google Ngram/BNC各15000合并，最终结果估计在17000~18000。剔除前三个阶段的词。为什么TOEFL、IELTS在这个阶段才选入呢，因为TOEFL、IELTS的词表来源不明，权威性存疑，按词频来看，里面偏难的词大概就在这个词频范围。另外，柯林斯的星级广受推崇，但我发现这个词表的年代悠久，5星~2星的星级标注与常见的词频差距极大，实在不适合早期合并，但是到了1万5这个水平，也就它了。
第五阶段25000，将COCA/iWeb/Google Ngram/BNC各25000合并，有名的词表还剩一个专四专八，愿意合并也可以，最终结果估计在23000~24000。剔除前四个阶段的词。基本上到这个阶段就够用了。
第六阶段40000，将GRE、COCA/iWeb/BNC/Google Ngram各40000合并，最终结果估计在37000~38000。剔除前五个阶段的词。GRE词表里的难词实在是太冷僻了，到这个阶段才加入。能背到这个阶段已经不是常人了。
第七阶段60000，将COCA/iWeb/BNC各60000合并，最终结果估计在50000多。剔除前六个阶段的词。没啥好说的了。
最后，如果觉得第一阶段跨度太大，还可以搞个第零阶段。这里就做减法，将牛津3000、朗文3000、高中词汇、COCA/iWeb/Google Ngram/BNC各3000中的交集提取出来，估计在2000~2500，这就是最基础的词汇了，可以用于基础太差的扫一遍，也可以用于当作平时的排除列表。

舒服员 · 2022 年10 月 23 日 15:38

方案很详细, 很有参考价值.

用词典检查的思路不谋而合, 我现在用的四本词典检查: 简明英汉, 新世纪必应, cald, oald.源文件合并检查的, 脚本会尝试用大小写和连字符的不同组合方式去词典里查询.

最近没有搞词表, 想要去爬OED, 我发现它的词频比较好, 它是基于google ngram做的, 属于专家筛选过的了, 结果爬到2000多页爬不动了.

我想最好做成一个词表, 或者两个, 考试词表一个, 词频表一个.

至于分阶段, 可以自己分阶段背诵背, 我是这样觉得的.