用EmEditor解决词形还原的一种设想

词形还原这项操作网上基本就一个派别,需要用到python这玩意,他们用的比较多的好像是基于NLTK,他们讲来讲去反反复复的意思就是差不多要懂python,查遍互联网基本就这么个意思。当然有在线不用学编程的那种,但是限制转换字数。多年前的一个这种还原软件居然不能用了。
难道不学编程就没解决方案了吗?
思考了一阵子,词形还原的本质是啥,打个比方说,熊家族老公熊和老母熊,生了几个熊,这几个小熊叫熊大,熊二,熊三,熊四,不管是多少个孩子都是这个熊家族的。这不就是一个查找问题么。跟查户口差不多。这正是EmEditor的长项,这软件不只是查遍祖宗十八代,而是有多少代就可查多少代。
用EmEditor解决词形还原的设想如下:
建立一个对应词表(这个对应词表的量最起码要几十万)
A列和B列(A列是已变形词,B列是这些词的原形)示例:(两列之间用Tab键打出一个间隔来,这样方便用EmEditor的筛选功能)
book book
books book
dog dog
dogs dog
pig pig
pigs pig
eat eat
ate eat
eaten eat
建这个对应词表可用的方案:

  1. 用现成的lemma词表处理,问题是数量级不够。
  2. 用那种专门词形变化的mdx格式的词族词典,用GetDict软件转出来处理。

词形还原操作步骤
1.用EmEditor搜索里的提取常用字符串提取原著的按词频顺序排列的词(删掉词频数字),提取的这些词之后建议把自己认识的词过滤掉(可用用EmEditor里面的筛选功能过滤掉),
2.然后再在EmEditor里用批处理提取方式在这个A列和B列对应词表中进行提取一遍,这一步才是真正词形还原的操作一步。

下面的操作与词形还原没关系了,是把还原完得到的生词进行查音标解释和例句了。
再把提取完毕出来的结果词表到原著用的txt格式词典文件里提取一遍带音标解释和例句。

这里面预计可能的问题:

  1. 原著里有些词对应词表里没有,txt格式的词典里也可能没有。
    把这个设想写出来是为了防止忘了。

希望有人能写出自己更好的解决方案。

看了一下你的其他帖子,挺有趣,推荐你了解下这个软件 LingQ——外语阅读与词汇记忆的沉浸体验 - 知乎

为啥推荐lingQ。
和楼主的主题有关系吗?

大致看了一下LingQ,一个学英语的软件,里面有些功能和蒙哥阅读器类似,不过我个人不太会使用这种软件,我个人的词汇量也够用,就算是要背单词也是放到录音里解决的,放到录音里记住的单词很多年忘不掉。
至于我的那些EmEditor解决单词方面和查词方面的帖子主要是从教英语的角度去写的,可是现在教英语也没得教了,因为厉害国打压辅导,所以就失业了。教英语还不如打球踢球的,有招聘广告招打球踢球的教学人员按我们这个兔子都不拉屎的小破地方的待遇看算是给的很高了。
我们本地的辅导机构基本都改名叫托管了,去年刚开始打压的时候辅导机构牌子带教育两个字的都要把教育两个字铲掉,牌子上带英语两个字的都要把英语两个字铲掉,当时有个辅导机构叫“小麦英语”,牌子刚挂上,就把英语两个字铲掉了,铲掉了之后牌子上两个字就是小麦,让人看了特荒唐。这不是胡编的。这是真事。
多年前在某个海边城市开了一个国际会议,那个海边城市就折腾不完了,它所行政归属的下面的县级的那些县市所有的门头房的LED牌子都拆掉,利由就是“造成光污染”。

可以直接用hunspell构词法词典,已经非常完善了。hunspell提供的是基于根词的变化规则,比如根据规则work可以变成works、worked、working等等。用unmunch可以得到整个数据库,也就是所有可能的根词、变形对,两者交换一下角色就是你想要的了。英语的条目可能超过了unmunch限制,可以用 wordforms命令得到某一个词的所有可能变形

1 Like

谢谢!!!!!!!!!