如何提取longman dictionary中的guide word(导航词)

我在用朗文查单词的时候发现朗文词典对一些含有多个释义的单词提供了guide word窗格。朗文6的英汉版里把guide word称为导航词。它是为了方便使用者更快捷的查找到需要的释义内容而设置的栏目。虽然,我觉得在某种程度上,这个guide word有点像简化版的activator,但是,我觉得这个guide word对于常见多义词汇的理解和应用其实更加实用。所以,我很想把这个guide word提取出来,做成一个excel表格,这样我能更清楚的看到这些词汇之间的关系。

想问大家,如果我应该如何才能获得guide word的文本数据?

我自己想的是,使用mdx export将朗文的mdx文件导出成txt格式。然后使用emeditor利用批量查找工具匹配出含有guide word特征的词条。但是,我不太会用emeditor。希望可以得到大家的指点和帮助,谢谢。

图片中的橙色文本就是guide word

简单的办法是直接把不需要的标签替换成空白字符,通过多次替换,剩下的文本就是你要提取内容,任意支持正则的编辑器都可以这么操作。

有点难,要么正则,要么得用python处理一下,对每个单词的页面把这部分元素提取出来,比如beautifulsoup或xpath

有个小合集
牛朗剑麦导航词.mdx (913.5 KB)

1 个赞

天,没想到真的有,真的非常感谢分享,谢谢:pray: