鸿雁拼音输入法在最新的评测中取得准确率全球第二的好成绩

发现机械分词的长词条有很多如“华人民共和国国家卫生和计划生育委”等的词汇,可否通过分步骤处理来避免此类情形:

  1. 先集中优化处理2-5字的短词条,且尽量是高质量的有具体语义的词汇。
  2. 在此基础上再处理长词条,但要求但凡能匹配上述短词条的,不得拆分。

这样好像可以极大减少冗余词条。不知道技术上是否可行,仅供参考。