用AntConc统计出英文原著所有单词,用EmEditor批处理标注所有生词音标含义例句

用AntConc统计出英文原著所有单词,用EmEditor批处理标注所有生词音标含义例句
准备工作,
必备软件:

  1. AntConc (别下载最新版的,下载旧版的单文件的就行了,4.0版以下的,4.0版开始都功能太多操作太复杂。)
  2. EmEditor
  3. 一个你认识的所有的单词词表,用来过滤
  4. 准备一个lemma词表(就是用于合并词形变化为一个词),在AntConc作者网站上有。
  5. 就是你要读的英文原著(最好把断行合并处理)

用AntConc 软件 打开Open File(s), 打开你的英文原著,
打开AntConc的Tool Preferences, 勾选
image
勾选
image
Lemma List 下面有个按钮用于添加lemma list的,把lemma词表添加上
添加你准备的那个你认识的单词词表
image

最后点Apply

然后在Word List界面下,点Start


Sort by那地方你愿意设置就设置,不过设置成Sort by Word End挺有趣的,结果会把单词按词尾进行排列。
然后在File菜单下,Save output就行了。
然后你会得到一个词频表。这个词表里的就是你不认识的单词(当然因为上面设置了大小写问题,有些大写的你认识的单词需要自己删掉),你把这个词表处理一下整理成全是你不认识单词的表,然后做成一个EmEditor软件的批处理的tsv文件,用EmEditor进行批量提取生词音标含义和例句就行了。至于使用EmEditor进行批量提取生词音标和例句,请自己去找我另一个帖子看看(读原版,批量提取词典的生词和例句)。
关于EmEditor的批处理使用可以看看这个视频,这个视频里有详细讲解 EmEditor系列教程-21集-批处理查找_哔哩哔哩_bilibili

2 个赞

这样的工作用python写几行很短的脚本就能解决,应该比你找各种现成的GUI工具效率高很多

学会python好像不是看几行句子就能学会吧 ?当你在没接触任何python信息的时候,你从零开始学python是看几行句子学会的吗?
那你咋不写几行句子让人看懂python怎么使用?
还有你的那几行代码在哪?我一点也不怀疑你会写代码。你一个学过编程的人跟没学过编程的人表示你写代码能力多么强悍,这好像有点显示你太优秀了吧!
你要么开个帖子,教大家写代码,这样没学过编程的人也好写出点有用的内容来。要么你给大家写一个还原词形的软件,客观说,即便是你教大家写代码,估计一天两天也学不到写出个软件的程度来。正好我到处找词形还原的软件,没找到可用的,CSDN上面有很多用代码解决的,看不懂。

不能这么说,毕竟不会编程的占多数,会编程的如果有好用的工具为啥要重新造轮子。

我试过好多生词提取工具,说实话没一个满足我的要求。主要的问题是无法剔除不是单词的字母组合,无法剔除人名等专有名词。
AntConc是一个强大的语料分析工具,用来干这事算是大材小用,我研究一下看能否解决这些问题。

AntConc确实做语料分析的软件,不过普通人也用不了里面别的功能,不过可用来提取句子,不过这软件处理数据的速度一般,没有BFSU PowerConc 1.0处理的快。AntConc4.0开始的版本都体积很大,自带语料库,功能也很多,不过用起来也复杂了。

欢迎来上几行python脚本,让大家都高效幸福一下。

不要理解错了,现在这年月谁还把写几行小脚本当成值得炫耀的事啊。

1 个赞

非常感谢你的分享

[读原版,批量提取词典的生词和例句 ] 为啥被删除了呢?