统一回复下, iWeb和Google Ngram, 会参考, 其实我一开始只是想从coca 20000里背, 结果最后越搞越复杂.
- 2个以上的-
这个确实直接删掉, 我查看过, 都是简单的合成词 - 存在了longtime,那么long-time删掉
这种确实不错 - 一个"-"的first-place, second-place, third-place 这种, 人工筛选工作量应该很大, coca的连字符单词在一万左右, 包括删除同根词主要是为了控制词条数量.
- 考试词表基本是原样合并的
接下来会重新搞搞 iWeb和Google Ngram, 考虑出两个版本, 一个是比较激进的尽可能减小词条数量, 一个是尽可能保留词条.
考虑重新组织下代码, 然后把未合并的各个词表也发出来, 方便大家做其他用途.
BTW, 不知道哪里有权威可靠的考试词表可供使用