FreeMdict Forum
鸿雁拼音输入法在最新的评测中取得准确率全球第二的好成绩
软件经验交流展望
Vim
2022 年10 月 3 日 06:15
35
发现机械分词的长词条有很多如“华人民共和国国家卫生和计划生育委”等的词汇,可否通过分步骤处理来避免此类情形:
先集中优化处理2-5字的短词条,且尽量是高质量的有具体语义的词汇。
在此基础上再处理长词条,但要求但凡能匹配上述短词条的,不得拆分。
这样好像可以极大减少冗余词条。不知道技术上是否可行,仅供参考。
在话题中显示帖子