英语词汇构词法规则库(三合一版)

pdawiki发了一份,这里也发一份,希望出现更多好词典。

做Kindle词典的时候需要用到此库来为词头添加添加变形词,之前一直用的是 dsl2mobi 这个工具里面的 forms-EN.txt 规则集。后来发现内容不够多,只有十三万。于是又增加了两份进去。

合并的资源:

  1. Webster’s Third New International Dictionary Unabridged 词典中的各单词变形。之前论坛有人发过,目前帖子状态未知。

  2. https://github.com/skywind3000/ECDICT 项目中,最新版(stardict.7z)数据内的各单词变形。

合并、去重后得出的数据为382344条。由于 ECDICT 项目中的数据太杂太乱以及质量参差不齐,可能会出现一些奇怪的变形词,不过不影响整体。

使用指南:

数据每行一条,格式为:

原型+冒号+空格+变形词[, 变形词2, 变形词3]

如: pollenize: pollenizing, pollenized, pollenizes

已合并去重,且全部转为了小写,调用函数搜索或者插入数据库后SQL查询时,一次判断为真即可直接返回,停止继续搜索。

顺手转了一份DB,sqlite直接调用即可:

TXT文本图:

db_English_Forms_Merged.zip (5.0 MB) txt_English_Forms_Merged.zip (2.3 MB)

4 Likes

谢谢你的分享

1 Like

很多有亂碼,仁兄可否從源頭就轉成utf 8 ,想搞成mdx, 有點困擾,因後續再轉成utf8也是亂碼

矇gringolade: d矇gringolades
cama簿eu: cama簿eux
cambog矇: cambog矇s
camp?ut: camp-outs
ca簽ada: ca簽adas
candle?oot: candle-feet

1 Like

TXT:

no1

DB:

n2

我这边一直都是utf-8,且并无问题

謝謝回覆,後來用 emeditor 碼是正确的…謝謝

1 Like