做了一个所谓的"最后的单词表", 请大家帮忙看看

shiruxue · 2022 年8 月 18 日 17:13

还可以像隔壁 yikelee 选本现成的词典做卡牌。Lexico就不错，除了英美发音超多例句近反义词外，还有词源，不过海上的中文版不好找，可以用FF的部分双解版平替。

【重磅】ODE释义单词+牛津TOPIC+专八+GRE (LEXICO)

(出处: 掌上百科 - PDAWIKI)

舒服员 · 2022 年8 月 18 日 17:46

很详细, 适合学习, 但是作为背诵来说, 这个内容太多了吧, 像是背词典啊 . 可能每个人习惯不同.

zambast · 2022 年8 月 19 日 01:31

目前感觉最契合的是王文昌那本搭配大词典，但是需要OCR。
另外就是脚本处理一下牛津搭配词典，不过牛津经常一大堆搭配词连在一起，中文又不是一对一难以脚本处理，只能这样一堆做一张卡，效果差不少。

shiruxue · 2022 年8 月 19 日 06:26

其实我不懂如何制作牌组，只是觉得牌组的精髓是单词表，有了单词表剩下的制作对技术大佬来说就是选一本字典的事，背过一本再换一本背还能加深记忆，背诵词典也可以有选择地背，简单的单词可以听完发音一点即过，难一点的看看例句，再看看词源

zambast · 2022 年8 月 19 日 07:47

这就是我说的目前主流的制卡方式。不能说无效或效果不好，我自己也是用的这种卡组。但这种卡组其实是不符合anki的最简原则的。anki又被称为闪卡，是因为最适合的就是简单的一一对应，一闪而过，多次重复。anki在背例如table-桌子这种实体性名词的时候效果极好，但是背概念模糊不能与中文完美对译的抽象的词的时候效果就一般，这也是为什么很多高手都建议看英文释义，用英文思维，但这对于基础薄弱的新手来说非常困难，十几个单词的英文释义也同样不适合anki。这在碰上多义词的时候更是如此。很多制作精美的大而全卡组，更加适合读而不是背。比如你花1分钟甚至好几分钟的时间读完了一张卡牌上面的内容，究竟记住了多少，到明天复习的时候又能想起来多少。每张卡片要花一分钟你又能重复几次。一个词有三四个义项（这种词很常见，更多义项的自不必说）记住了一个义项到底算不算记住了，心里没底吧。而如果要发挥闪卡的“闪”，到最后还是只背简明释义，那跟我在词典上先看一遍，anki只用简明释义有何区别。
我试过几种卡组，感觉效果最好的是ankihelper的卡组，一词一句一释义，算是相当符合最简原则了。但是ankihelper是适合平时阅读时采集生词用，没法大规模制卡。另一方面，句子实际上也还是内容太多了，并不适合背，而且以新手的阅读速度，读一遍例句的时间也还是太长。

sannuofy · 2022 年8 月 20 日 00:59

王文昌那本搭配大词典，词条的结构比较清晰，OCR 的话难度还可以
可惜里面的5词以上的长例句还是比较多，粗略看了一下，至少5成以上吧

zambast · 2022 年8 月 20 日 02:21

这本没有好的扫描版本，我用扫得最清楚的那个版本试了一下百度OCR。作为分隔符的||基本上识别不出来，不方便简单地替换换行。方括号[]非常不清楚经常人眼都只能看到竖线，大量识别错误。

这种搭配词典已经是最符合的了，普通词典虽然也有些搭配组合，但相对较少，主要问题是并不是每个义项都有搭配组合，大体上还是以例句为主。论坛大神的TIO就是采集各种词典的搭配和例句，挺适合没事的时候扫几眼。

王文昌这本的例句一般不长，如果OCR后还能把原格式恢复，将核心词和搭配词高亮显示，即便是例句在anki里效果应该也还行。可惜的是能保留格式的Abbyy Finereader的识别准确率现在实在太不够看了，而百度这种AI OCR普遍不能保留格式。后期处理的话核心词还容易脚本处理，搭配词不知道该怎么搞。

sannuofy · 2022 年8 月 20 日 05:51

核心词和搭配词都是斜体字，这个 abbyy 基本上都能识别出来
问题出在分隔符 || 和方括号上，这个可以根据出错的方式最后进行全局识别替换

但是 abbyy 的中英混合识别正确率相对百度AI高精度还是差些
可以最后进行批量比对

当然，这一套弄下来，也需要不少功夫
每天做点，然后慢慢来既可

zambast · 2022 年8 月 24 日 17:03

刚发现陆谷孙的英汉大词典的例句大半是搭配组合，例句也都是短句一般也就10来个词，完全符合要求，相比搭配词典唯一的缺点仅仅是搭配词没有特殊格式。感觉可以背。另一个选择是研究社新編英和活用大辞典。都比OCR来的省事。。

sannuofy · 2022 年8 月 25 日 01:26

研究社新编英和那个有关键词标记，而且词条是最多的，可惜没有中译，适合一定水平之上的
所以最终还是牛津搭配最为合适，虽然释义和搭配有一些没有一一对应，但是保证了整组对应，即便很一般的水平都能很快适应，而且词条也不算少了，1万多条，要都掌握了，那也绝对能算得上高手了。

Yahkun · 2022 年8 月 26 日 03:16

最近也在整理自己的词库，不过和楼主的大而全的方式不同，我采取的是最简化原则，以

牛津3000和5000
朗文交际3000和9000
麦克米伦7500
柯林斯星级
English Profile CEFR Word List
4000 Essential English Words

为底本，合并去重，再把功能词、专有名词、缩略词、语气词、自解释的合成词、规则的派生词全都剔除了出去，另外把英美不同拼法的词头也做了合并，最后剩下的单词分成熟悉和陌生方便后续分类回顾记忆。

我的感受是适合自己的词表，一定是高度定制化的，毕竟每个人的现状和需求是千差万别的。我对自己的要求就是熟练掌握CEFR A1~C2的大约7000个核心词汇，另外再熟悉了解7000多个拓展词汇，总词汇量大约能达到1.5W就足够足够满足我的工作生活需求了。

jxcy · 2022 年8 月 28 日 09:14

估计楼主会放弃

shiruxue · 2022 年8 月 28 日 09:35

通用性蛮高的，可否分享一下？

舒服员 · 2022 年9 月 1 日 05:07

今天继续开搞, 而且是推倒重来.

舒服员 · 2022 年9 月 1 日 13:53

iweb找不到资源了, 官方已经不开放浏览了. 网上也没有下载的

poorich · 2022 年9 月 6 日 20:13

https://wordnet.princeton.edu/
能用这个不，也很有名的库

舒服员 · 2022 年9 月 7 日 08:02

下载了数据库看了下, 包含大量的词汇元信息, 需要较多的功夫清洗才能用. 这个数据库的单词直接拿来背感觉和直接背字典差不多吧?

Zillionaire · 2022 年9 月 7 日 16:16

求iWeb Corpus的语料库做成mdx词典分享
本论坛资源。

其实，现在我是用隔壁论坛的三合一语料库词表
COCA60024+GOOGLE29133+BNC15000词表
用txt编辑软件分割，导入不背单词和欧路词典配合牛津、韦氏和词根词缀词典去刷单词。然后，刷题做验证。

舒服员 · 2022 年9 月 7 日 16:54

初步搞出来了, 现在有两套: 1个是考试词表, 各种考试单词表合并去重, 最后粗略统计不到2w,

还有一个是词频词表, (每个词频表最多取前6W), 最后合并统计10w左右.

下一步是把垃圾词过滤出去.

sannuofy · 2022 年9 月 8 日 03:15

融合性词频表的优点就是能弥补不同标准下的 “漏词”

只是这么多不同的词表，会以什么样的方式融合呢？
比如怎么进行新的排序，谁在前谁在后？还是说只做分段，不做具体排序？

融合之后会不会标记每个单词的来源？
能不能够方便后续根据不同需求进行重新排序呢？