英语词汇构词法规则库(数据清洗版)

我以前制作Kindle词典时一直使用 dsl2mobi 自带的纯文本数据库 forms-EN.txt (在目录 wordforms/forms-EN.txt),这次制作 牛津高阶英汉双解 时无意中发现这个版本 https://www.bilibili.com/read/cv11110160/,不过数量不能代替质量,这个列表质量实在太糟糕了,里面有很多词条都有非法字符(中文之类的),还有很多回环词条(比如同时存在a:b, b:a等),以及一些其他错误。
我就写了一些脚本进行数据清洗,清洗后数据条目从38万减小到20万。

给社区分享出来,不管是制作mdx还是mobi,都有帮助。

forms-EN-cleaned.rar (1.3 MB)

5 Likes

基于Webster’s Third New International Dictionary Unabridged这一点,本身就充满了局限性,和现代是脱轨的,不如另起炉灶。

这是构词法,是单词时态语态单复数等变形,不是单词释义,所以基本不会变。

1 Like