关于词组识别问题的讨论
一、词组分类
- 介词短语
- 短语动词(时态、单复数)
- 名词短语(单复数)
- 固定搭配 (?可能包含1、2、3、5、6)
- 习语
- 其他
二、识别方法:使用正则表达式,根据词典文件词条 一 一匹配;
问题: 时态、单复数变化;
方案一:
例:Bobby looked at her with a sheepish grin.博比望着她腼腆地咧嘴一笑。
1、按空格拆成数组 [“Bobby”, “looked”, “at” ,“her”, “with”, “a” ,“sheepish”, “grin”]
2、按规则还原原形,合并为新数组
如果length>1,push();
如果length=1,concat();
得[“Bobby”,[“looked”,“look”], “at” ,“her”, “with”, “a” ,“sheepish”, “grin”]
3、按照词典词条匹配,找出 look at
将词条look at拆成
["look", "at"]
先找look,找到后判断后一个元素是不是at
缺点:如果词条数量比较多,就比较花时间;
4、给原文中 looked at 添加标签
【方案一】效果: