读原版,批量提取词典的生词和例句

读原版最大的难度是生词问题,批量查生词在这个论坛有好几种解决方案了。其中一种是蒙哥阅读器,还有一种是英文快典,还有一种方式用代码批量从在线词典上提取。
我这里说的是用EmEditor的批处理功能,把大量要查的生词写成大量的正则表达式,然后批处理进行批量提取。这种方法在蒙哥阅读器那个帖子说了一次,但是那次我使用的英汉大词典把例句全删除了,也就只是提取单词音标和解释。这次是提取单词解释和例句,因为这次找的那个英汉大词典的txt文件里面没有音标。那人处理的还算干净。当然如果你对于mdx词典转出txt词典源文件如果你会删除那些标记符而不损害里面的词典内容,那么就可以提取音标、解释和例句了。我手头的那个英汉大词典mdx因为里面有很多词条的序号是通过css自动添加的,所以先前我把例子全删了。我今天发的这个英汉大词典txt文件里序号很正常,就是没音标,我不知道那人用什么版本的,也许他把css的那些自动添加的序号还原到词典了?
我把这个英汉大词典的txt文件发出来,那个批处理的tsv文件也发出来,感兴趣的可以拿着去玩玩看。我是一并提取3400多词。EmEditor 32位的22.0.1版本批量处理这么多正则表达式速度很一般,它干一会儿,歇一会儿(其实是它存数据)因为要处理的数据挺恐怖的多,到最后提取出来了。大致提取速度是一分钟可以提取500个词条(也就是单词、音标、解释和例句都在内。)
如果是64位的,速度能好一点。说一下电脑配置Intel(R) Core™ i7-4800MQ CPU @ 2.70GHz 2.70 GHz,16G内存。电脑配置低的不建议使用这种方案。电脑配置低的就别采用批量提取了(还是使用别的方案吧)
英汉大词典文件(只是处理了大致,有些地方需要合并,有些没用的内容需要删除)
英汉大词典(第二版).part1.rar (10 MB)
英汉大词典(第二版).part2.rar (41.7 KB)
批处理tsv文件
批处理查单词及例句.rar (11.8 KB)
提取结果:
提取结果.txt (1.9 MB)

如果你使用的词典文件里面也就几万词汇,有音标而且有例句,那么这种方案还是可以的。这种方式比较适合需要例句的人。用来给学生写资料也不错。

4 Likes

这个新世纪英汉大词典 音标,解释,例句全有。这个里面的内容不像英汉大词典那么乱
新世纪英汉大词典批量查词和例句使用.part1.rar (10 MB)
新世纪英汉大词典批量查词和例句使用.part2.rar (1.7 MB)

已更新,删除了多余的第二遍拼写。

2 Likes