牛津现代英汉双解词典(第9版)双解切换 2022-10-18

COD9-EC.mdx (11.9 MB)
我对词头进行了词形还原(lemmatization)处理,核心原因在于该词典仅支持精确匹配查询,无法识别单词的曲折变化形式 —— 例如输入 flowers 时,无法检索到其原形 flower。这种限制在手动输入查询场景下影响较小,因为用户通常会主动输入单词原形;但对于屏幕取词功能而言,就是个灾难。以如下句子中加粗标注的单词为例,通过欧路词典的取词功能均无法匹配查询结果,因为这些单词均存在曲折变化,这就极大限制了该词典的查询效率:

Raising awareness in career-related topics is a universal and inclusive approach for all trainees, which affords the opportunity to openly explore diverse career options.

我的方法是采用语料库语言学领域权威学者 Laurence Anthony(其开发了多款免费经典语料库工具)提供的 [Someya Lemma List] 词形还原词表(https://www.laurenceanthony.net/resources/wordlists/e_lemma.zip),然后通过 Python 完成格式适配处理后,将其追加至 mdx 词典文件尾部。打包工具选用了论坛分享的 AutoMdxBuilder_v1.5 版本 ,因为此前尝试使用 MdxBuilder 时,总是出现打包后词条顺序错乱的问题,折腾到半夜还是没搞定,最终用这款工具解决了问题(给开发者点赞)。 【v1.6_20240123】AutoMdxBuilder 自动化制作 mdx 词典

现在词头数量显示为12w,对我而言,查词能力大幅提高了(以前每次用欧路取词查询曲折变化形式的单词时,均需手动确认 “是否要查找 xxx”,点多了还是有点烦的)

第一次修改mdx,参考了本论坛很多资料,不一一列出,不足之处,还请各位大佬指教。

6 个赞