通常时候查询单词或者记忆单词,只想要直到最主要的释义。太偏门的单词,还是不知道为好,以免占用脑细胞。为了方便自己使用,特别制作了ECDICT简化版本。可以制作成DICT格式,GoldenDict可以使用。根据ECDICT简化版本,也可以很方便的导入Anki制作卡片。
以下操作可以在Linux下完成,需要安装xsv和dictd两个软件包,Arch Linux下安装命令:
yay -Sy xsv-bin
pacman -Sy dictd
其他Linux发行版本可以自行寻找安装方法。
第一步,下载文件:
curl -O https://raw.githubusercontent.com/skywind3000/ECDICT/master/ecdict.csv
第二步,过滤单词:
-
选取包含在英国国家语料库词频(BNC)和当代语料库词频(COCA)的单词;
-
删除纯粹的各类专业单词;
-
替换或者删除一些特殊字符,如\t、\r、“\r”;
cat ecdict.csv | grep -v ",,,,,0,0," | grep -v ",\"\? \?\[.\]" | sed 's/\t/ /g' | sed -E 's/\\r//g' | dos2unix > ecdict-filtered.csv
第三步,提取必要字段转换成文本文件并进一步删除专业释义:
xsv select word,translation ecdict-filtered.csv | xsv fmt -t "\t" -o definitions.txt
sed -i -E 's/\\n\[.\] .*$//g' definitions.txt
第四步,生成DICT格式供GoldenDict使用:
cat definitions.txt | tail -n +2 | sed -e 's/\t/:/g' -e 's/^/:/g' > ecdict.txt
dictfmt --utf8 --allchars -s "ECDICT" -j ecdict < ecdict.txt
生成的两个文件ecdict.dict 和 ecdict.index 就可以放到GoldenDict的词典目录下使用了。
以下是处理结果的数据:
原词典包含770612个单词,共 63 MB。
处理之后包含55831个单词,共2.6 MB。
目前我使用这个简化版本用来回顾我的词汇,感觉很好用,简洁快速。