ECDICT 简化版本的制作方法

yunkaishan · 2020 年4 月 8 日 03:19

通常时候查询单词或者记忆单词，只想要直到最主要的释义。太偏门的单词，还是不知道为好，以免占用脑细胞。为了方便自己使用，特别制作了ECDICT简化版本。可以制作成DICT格式，GoldenDict可以使用。根据ECDICT简化版本，也可以很方便的导入Anki制作卡片。

以下操作可以在Linux下完成，需要安装xsv和dictd两个软件包，Arch Linux下安装命令：

yay -Sy xsv-bin
pacman -Sy dictd

其他Linux发行版本可以自行寻找安装方法。

第一步，下载文件：

curl -O https://raw.githubusercontent.com/skywind3000/ECDICT/master/ecdict.csv

第二步，过滤单词：

选取包含在英国国家语料库词频（BNC）和当代语料库词频（COCA）的单词；
删除纯粹的各类专业单词；

替换或者删除一些特殊字符，如\t、\r、“\r”；

 cat ecdict.csv | grep -v ",,,,,0,0," | grep -v ",\"\? \?\[.\]" | sed 's/\t/ /g' | sed -E 's/\\r//g' | dos2unix > ecdict-filtered.csv

第三步，提取必要字段转换成文本文件并进一步删除专业释义：

xsv select word,translation ecdict-filtered.csv | xsv fmt -t "\t" -o definitions.txt
sed -i -E 's/\\n\[.\] .*$//g' definitions.txt

第四步，生成DICT格式供GoldenDict使用：

cat definitions.txt | tail -n +2 | sed -e 's/\t/:/g' -e 's/^/:/g' > ecdict.txt
dictfmt --utf8 --allchars -s "ECDICT" -j ecdict < ecdict.txt

生成的两个文件ecdict.dict 和 ecdict.index 就可以放到GoldenDict的词典目录下使用了。

以下是处理结果的数据：
原词典包含770612个单词，共 63 MB。
处理之后包含55831个单词，共2.6 MB。

目前我使用这个简化版本用来回顾我的词汇，感觉很好用，简洁快速。

hua · 2020 年4 月 8 日 07:39

很好的尝试。

sculiuchang · 2020 年4 月 8 日 11:12

直接上传一个可以吗？

yunkaishan · 2020 年4 月 8 日 17:59

打包上传，包含3个文件：
definitions.txt
ecdict.dict
ecdict.index
其中
definitions.txt 是tsv文本格式，使用tab分隔字段，可以使用文本编辑其或者Excel打开。
ecdict.dict 和 ecdict.index这两个是词典文件，可以放到GoldenDict的词典目录下。

ecdict.zip (2.7 MB)

HDtiger · 2020 年4 月 9 日 02:45

制作简化版的原档词典的名字是什么？

yunkaishan · 2020 年4 月 9 日 03:16

原档词典项目主页在这里：https://github.com/skywind3000/ECDICT

名字： ECDICT

使用 ECDICT 的数据，生成了《简明英汉字典增强版》的字典词库。

yunkaishan · 2022 年6 月 5 日 18:55

转换成MDX，上传分享一下。
ecdict.mdx (1.4 MB)

mdict6 · 2022 年6 月 6 日 10:18

2 YEARS LATER

欢迎回论坛（笑）

cenfit · 2022 年6 月 13 日 09:23

加上音标吧，大神！

yunkaishan · 2022 年6 月 13 日 16:37

请转入： [测试]自制简明英汉发音库词典 for macOS Dictionary.app