ECDICT 简化版本的制作方法

通常时候查询单词或者记忆单词,只想要直到最主要的释义。太偏门的单词,还是不知道为好,以免占用脑细胞。为了方便自己使用,特别制作了ECDICT简化版本。可以制作成DICT格式,GoldenDict可以使用。根据ECDICT简化版本,也可以很方便的导入Anki制作卡片。

以下操作可以在Linux下完成,需要安装xsv和dictd两个软件包,Arch Linux下安装命令:

yay -Sy xsv-bin
pacman -Sy dictd

其他Linux发行版本可以自行寻找安装方法。

第一步,下载文件:

curl -O https://raw.githubusercontent.com/skywind3000/ECDICT/master/ecdict.csv

第二步,过滤单词:

  1. 选取包含在英国国家语料库词频(BNC)和当代语料库词频(COCA)的单词;

  2. 删除纯粹的各类专业单词;

  3. 替换或者删除一些特殊字符,如\t、\r、"\r";

     cat ecdict.csv | grep -v ",,,,,0,0," | grep -v ",\"\? \?\[.\]" | sed 's/\t/ /g' | sed -E 's/\\r//g' | dos2unix > ecdict-filtered.csv
    

第三步,提取必要字段转换成文本文件并进一步删除专业释义:

xsv select word,translation ecdict-filtered.csv | xsv fmt -t "\t" -o definitions.txt
sed -i -E 's/\\n\[.\] .*$//g' definitions.txt

第四步,生成DICT格式供GoldenDict使用:

cat definitions.txt | tail -n +2 | sed -e 's/\t/:/g' -e 's/^/:/g' > ecdict.txt
dictfmt --utf8 --allchars -s "ECDICT" -j ecdict < ecdict.txt

生成的两个文件ecdict.dict 和 ecdict.index 就可以放到GoldenDict的词典目录下使用了。

以下是处理结果的数据:
原词典包含770612个单词,共 63 MB。
处理之后包含55831个单词,共2.6 MB。

目前我使用这个简化版本用来回顾我的词汇,感觉很好用,简洁快速。

4 Likes

很好的尝试。

直接上传一个可以吗?

打包上传,包含3个文件:
definitions.txt
ecdict.dict
ecdict.index
其中
definitions.txt 是tsv文本格式,使用tab分隔字段,可以使用文本编辑其或者Excel打开。
ecdict.dict 和 ecdict.index这两个是词典文件,可以放到GoldenDict的词典目录下。

ecdict.zip (2.7 MB)

制作简化版的原档词典的名字是什么?

原档词典项目主页在这里:https://github.com/skywind3000/ECDICT

名字: ECDICT

使用 ECDICT 的数据,生成了《简明英汉字典增强版》的字典词库。