我以前制作Kindle词典时一直使用 dsl2mobi 自带的纯文本数据库 forms-EN.txt (在目录 wordforms/forms-EN.txt),这次制作 牛津高阶英汉双解 时无意中发现这个版本 https://www.bilibili.com/read/cv11110160/,不过数量不能代替质量,这个列表质量实在太糟糕了,里面有很多词条都有非法字符(中文之类的),还有很多回环词条(比如同时存在a:b, b:a等),以及一些其他错误。
我就写了一些脚本进行数据清洗,清洗后数据条目从38万减小到20万。
给社区分享出来,不管是制作mdx还是mobi,都有帮助。
forms-EN-cleaned.rar (1.3 MB)