做了一个所谓的"最后的单词表", 请大家帮忙看看

还可以像隔壁 yikelee 选本现成的词典做卡牌。Lexico就不错,除了英美发音超多例句近反义词外,还有词源,不过海上的中文版不好找,可以用FF的部分双解版平替。

【重磅】ODE释义单词+牛津TOPIC+专八+GRE (LEXICO)

(出处: 掌上百科 - PDAWIKI)

2 个赞

很详细, 适合学习, 但是作为背诵来说, 这个内容太多了吧, 像是背词典啊 :sweat_smile:. 可能每个人习惯不同.

2 个赞

目前感觉最契合的是王文昌那本搭配大词典,但是需要OCR。
另外就是脚本处理一下牛津搭配词典,不过牛津经常一大堆搭配词连在一起,中文又不是一对一难以脚本处理,只能这样一堆做一张卡,效果差不少。

其实我不懂如何制作牌组,只是觉得牌组的精髓是单词表,有了单词表剩下的制作对技术大佬来说就是选一本字典的事,背过一本再换一本背还能加深记忆,背诵词典也可以有选择地背,简单的单词可以听完发音一点即过,难一点的看看例句,再看看词源 :slightly_smiling_face:

这就是我说的目前主流的制卡方式。不能说无效或效果不好,我自己也是用的这种卡组。但这种卡组其实是不符合anki的最简原则的。anki又被称为闪卡,是因为最适合的就是简单的一一对应,一闪而过,多次重复。anki在背例如table-桌子这种实体性名词的时候效果极好,但是背概念模糊不能与中文完美对译的抽象的词的时候效果就一般,这也是为什么很多高手都建议看英文释义,用英文思维,但这对于基础薄弱的新手来说非常困难,十几个单词的英文释义也同样不适合anki。这在碰上多义词的时候更是如此。很多制作精美的大而全卡组,更加适合读而不是背。比如你花1分钟甚至好几分钟的时间读完了一张卡牌上面的内容,究竟记住了多少,到明天复习的时候又能想起来多少。每张卡片要花一分钟你又能重复几次。一个词有三四个义项(这种词很常见,更多义项的自不必说)记住了一个义项到底算不算记住了,心里没底吧。而如果要发挥闪卡的“闪”,到最后还是只背简明释义,那跟我在词典上先看一遍,anki只用简明释义有何区别。
我试过几种卡组,感觉效果最好的是ankihelper的卡组,一词一句一释义,算是相当符合最简原则了。但是ankihelper是适合平时阅读时采集生词用,没法大规模制卡。另一方面,句子实际上也还是内容太多了,并不适合背,而且以新手的阅读速度,读一遍例句的时间也还是太长。

1 个赞

王文昌那本搭配大词典,词条的结构比较清晰,OCR 的话难度还可以
可惜里面的5词以上的长例句还是比较多,粗略看了一下,至少5成以上吧

这本没有好的扫描版本,我用扫得最清楚的那个版本试了一下百度OCR。作为分隔符的||基本上识别不出来,不方便简单地替换换行。方括号[]非常不清楚经常人眼都只能看到竖线,大量识别错误。

这种搭配词典已经是最符合的了,普通词典虽然也有些搭配组合,但相对较少,主要问题是并不是每个义项都有搭配组合,大体上还是以例句为主。论坛大神的TIO就是采集各种词典的搭配和例句,挺适合没事的时候扫几眼。

王文昌这本的例句一般不长,如果OCR后还能把原格式恢复,将核心词和搭配词高亮显示,即便是例句在anki里效果应该也还行。可惜的是能保留格式的Abbyy Finereader的识别准确率现在实在太不够看了,而百度这种AI OCR普遍不能保留格式。后期处理的话核心词还容易脚本处理,搭配词不知道该怎么搞。

1 个赞

核心词和搭配词都是斜体字,这个 abbyy 基本上都能识别出来
问题出在分隔符 || 和 方括号上,这个可以根据出错的方式最后进行全局识别替换

但是 abbyy 的中英混合识别正确率相对百度AI高精度还是差些
可以最后进行批量比对

当然,这一套弄下来,也需要不少功夫
每天做点,然后慢慢来既可

1 个赞

刚发现陆谷孙的英汉大词典的例句大半是搭配组合,例句也都是短句一般也就10来个词,完全符合要求,相比搭配词典唯一的缺点仅仅是搭配词没有特殊格式。感觉可以背。另一个选择是 研究社新編英和活用大辞典。 都比OCR来的省事。。

2 个赞

研究社新编英和那个有关键词标记,而且词条是最多的,可惜没有中译,适合一定水平之上的
所以最终还是牛津搭配最为合适,虽然释义和搭配有一些没有一一对应,但是保证了整组对应,即便很一般的水平都能很快适应,而且词条也不算少了,1万多条,要都掌握了,那也绝对能算得上高手了。

最近也在整理自己的词库,不过和楼主的大而全的方式不同,我采取的是最简化原则,以

  • 牛津3000和5000
  • 朗文交际3000和9000
  • 麦克米伦7500
  • 柯林斯星级
  • English Profile CEFR Word List
  • 4000 Essential English Words

为底本,合并去重,再把功能词、专有名词、缩略词、语气词、自解释的合成词、规则的派生词全都剔除了出去,另外把英美不同拼法的词头也做了合并,最后剩下的单词分成熟悉和陌生方便后续分类回顾记忆。

我的感受是适合自己的词表,一定是高度定制化的,毕竟每个人的现状和需求是千差万别的。我对自己的要求就是熟练掌握CEFR A1~C2的大约7000个核心词汇,另外再熟悉了解7000多个拓展词汇,总词汇量大约能达到1.5W就足够足够满足我的工作生活需求了。

8 个赞

估计楼主会放弃

通用性蛮高的,可否分享一下?

1 个赞

今天继续开搞, 而且是推倒重来.

iweb找不到资源了, 官方已经不开放浏览了. 网上也没有下载的

https://wordnet.princeton.edu/
能用这个不,也很有名的库

1 个赞

下载了数据库看了下, 包含大量的词汇元信息, 需要较多的功夫清洗才能用. 这个数据库的单词直接拿来背感觉和直接背字典差不多吧?

求iWeb Corpus的语料库做成mdx词典分享
本论坛资源。

其实,现在我是用隔壁论坛的三合一语料库词表
COCA60024+GOOGLE29133+BNC15000词表
用txt编辑软件分割,导入不背单词和欧路词典配合牛津、韦氏和词根词缀词典去刷单词。然后,刷题做验证。

初步搞出来了, 现在有两套: 1个是考试词表, 各种考试单词表合并去重, 最后粗略统计不到2w,

还有一个是词频词表, (每个词频表最多取前6W), 最后合并统计10w左右.

下一步是把垃圾词过滤出去.

1 个赞

融合性词频表的优点就是能弥补不同标准下的 “漏词”

只是这么多不同的词表,会以什么样的方式融合呢?
比如怎么进行新的排序,谁在前谁在后?还是说只做分段,不做具体排序?

融合之后会不会标记每个单词的来源?
能不能够方便后续根据不同需求进行重新排序呢?