王文昌那本搭配大词典,词条的结构比较清晰,OCR 的话难度还可以
可惜里面的5词以上的长例句还是比较多,粗略看了一下,至少5成以上吧
这本没有好的扫描版本,我用扫得最清楚的那个版本试了一下百度OCR。作为分隔符的||基本上识别不出来,不方便简单地替换换行。方括号[]非常不清楚经常人眼都只能看到竖线,大量识别错误。
这种搭配词典已经是最符合的了,普通词典虽然也有些搭配组合,但相对较少,主要问题是并不是每个义项都有搭配组合,大体上还是以例句为主。论坛大神的TIO就是采集各种词典的搭配和例句,挺适合没事的时候扫几眼。
王文昌这本的例句一般不长,如果OCR后还能把原格式恢复,将核心词和搭配词高亮显示,即便是例句在anki里效果应该也还行。可惜的是能保留格式的Abbyy Finereader的识别准确率现在实在太不够看了,而百度这种AI OCR普遍不能保留格式。后期处理的话核心词还容易脚本处理,搭配词不知道该怎么搞。
核心词和搭配词都是斜体字,这个 abbyy 基本上都能识别出来
问题出在分隔符 || 和 方括号上,这个可以根据出错的方式最后进行全局识别替换
但是 abbyy 的中英混合识别正确率相对百度AI高精度还是差些
可以最后进行批量比对
当然,这一套弄下来,也需要不少功夫
每天做点,然后慢慢来既可
刚发现陆谷孙的英汉大词典的例句大半是搭配组合,例句也都是短句一般也就10来个词,完全符合要求,相比搭配词典唯一的缺点仅仅是搭配词没有特殊格式。感觉可以背。另一个选择是 研究社新編英和活用大辞典。 都比OCR来的省事。。
研究社新编英和那个有关键词标记,而且词条是最多的,可惜没有中译,适合一定水平之上的
所以最终还是牛津搭配最为合适,虽然释义和搭配有一些没有一一对应,但是保证了整组对应,即便很一般的水平都能很快适应,而且词条也不算少了,1万多条,要都掌握了,那也绝对能算得上高手了。
最近也在整理自己的词库,不过和楼主的大而全的方式不同,我采取的是最简化原则,以
- 牛津3000和5000
- 朗文交际3000和9000
- 麦克米伦7500
- 柯林斯星级
- English Profile CEFR Word List
- 4000 Essential English Words
为底本,合并去重,再把功能词、专有名词、缩略词、语气词、自解释的合成词、规则的派生词全都剔除了出去,另外把英美不同拼法的词头也做了合并,最后剩下的单词分成熟悉和陌生方便后续分类回顾记忆。
我的感受是适合自己的词表,一定是高度定制化的,毕竟每个人的现状和需求是千差万别的。我对自己的要求就是熟练掌握CEFR A1~C2的大约7000个核心词汇,另外再熟悉了解7000多个拓展词汇,总词汇量大约能达到1.5W就足够足够满足我的工作生活需求了。
估计楼主会放弃
通用性蛮高的,可否分享一下?
今天继续开搞, 而且是推倒重来.
iweb找不到资源了, 官方已经不开放浏览了. 网上也没有下载的
下载了数据库看了下, 包含大量的词汇元信息, 需要较多的功夫清洗才能用. 这个数据库的单词直接拿来背感觉和直接背字典差不多吧?
求iWeb Corpus的语料库做成mdx词典分享
本论坛资源。
其实,现在我是用隔壁论坛的三合一语料库词表
COCA60024+GOOGLE29133+BNC15000词表
用txt编辑软件分割,导入不背单词和欧路词典配合牛津、韦氏和词根词缀词典去刷单词。然后,刷题做验证。
初步搞出来了, 现在有两套: 1个是考试词表, 各种考试单词表合并去重, 最后粗略统计不到2w,
还有一个是词频词表, (每个词频表最多取前6W), 最后合并统计10w左右.
下一步是把垃圾词过滤出去.
融合性词频表的优点就是能弥补不同标准下的 “漏词”
只是这么多不同的词表,会以什么样的方式融合呢?
比如怎么进行新的排序,谁在前谁在后?还是说只做分段,不做具体排序?
融合之后会不会标记每个单词的来源?
能不能够方便后续根据不同需求进行重新排序呢?
可以用excel表格,单词一列,后面一列列例如COCA排序号、iWeb排序号、考试词汇等等。至于序号,可以以某个排序为准,比如按iWeb排序。
另外,我不建议过滤啥“垃圾词”,比如n’t这种缩写可以去掉,但是楼主之前说的带连字符的,我觉得根本没必要排除。如果说是二十年前靠词汇书背单词确实简单词会干扰,但基本上现在都是用anki背单词吧,有anki这种软件辅助,简单词根本不会造成什么干扰,第一次出现,一秒刷过,然后4天后再出现,一秒刷过,然后可能就是几周后,然后一两月后,然后几个月后,根本浪费不了什么时间。
反倒是词表本身的质量是否可靠,网上很多词表经过各种“处理”,最常见的问题就是专有名词的大写丢失。
另外,我其实不建议纯粹按词频背单词,跟乱序差不多,就算按词频背,也建议比如5000个一档,然后按字母顺序,这样至少一些同族词、同源词还可能在比较靠近的位置,这样显然效率更高。其实词汇量达到5000以上,就该用词根背单词了,即同根词放在一起背,这样效率更高。词频表更适合后期扫一遍避免遗漏,毕竟词根总结的缺漏很多。
用的Python的zip_longest融合的,比如
a b c
D e f
G H
融合后
a d g b e h c f
先解决背什么,再解决怎么背的问题, 根据词根分组,好像很难,楼上发的wordnet可能有用,它可以显示词与词之间关系,但好像是词义上的,没有细看
背什么的问题,我觉得词表的前20000是足够了,在此基础上背短语、习语,尤其是作为难点的短语动词,必要性显然超过2万后,把这些搞通了再考虑2万以后的。
据统计,COCA词频表中的前13500词就已经覆盖了英语用词的99%。所以,重点应该是前10000词的检查吧。
1楼的考试词表的问题,貌似人名、地名之类的单词太多了。去背这些人名、地名的中文翻译,一点意义也没有。文章中,遇上人名、地名不翻中文也无碍。其实,楼主可以导入不背单词之类软件,自己检验看看,然后删掉前10000词的垃圾词,改正前10000词无法导入的部份。至于,10000词以后就随便了。
我感觉背词频表还是有用的。至少,背熟了,文章扫过去能大概知道意思,外国人叽哩呱啦说一串,也大概知道要表达什么。至于语法,我是整理语法句型的笔记,背到滚瓜烂熟。语言这种东西,就是一个语感吧。