Milkyway-Cloze-Plus:对Milkyway-Cloze 的 功能升级 【双语阅读,生词辅助】

关于词组识别问题的讨论

一、词组分类

  1. 介词短语
  2. 短语动词(时态、单复数)
  3. 名词短语(单复数)
  4. 固定搭配 (?可能包含1、2、3、5、6)
  5. 习语
  6. 其他

二、识别方法:使用正则表达式,根据词典文件词条 一 一匹配;

问题: 时态、单复数变化;

方案一:

例:Bobby looked at her with a sheepish grin.博比望着她腼腆地咧嘴一笑。

1、按空格拆成数组 [“Bobby”, “looked”, “at” ,“her”, “with”, “a” ,“sheepish”, “grin”]
2、按规则还原原形,合并为新数组

image
如果length>1,push();
如果length=1,concat();
[“Bobby”,[“looked”,“look”], “at” ,“her”, “with”, “a” ,“sheepish”, “grin”]

3、按照词典词条匹配,找出 look at

将词条look at拆成["look", "at"]
先找look,找到后判断后一个元素是不是at

缺点:如果词条数量比较多,就比较花时间;

4、给原文中 looked at 添加标签


【方案一】效果:


image