其实我觉得2次以上这个排除造成的误杀可能更多。。似乎没有必要,只出现1次也不能说就不是生词了。反正有词典验证在,干扰词不会造成大影响。
我想来想去还是觉得干掉所有带大写的更好,除了姓名等以外,也能排除掉一些特殊的表现手法带来的干扰词。而造成的误杀无非是一些现实中存在的地名、专有名词,这些数量不会很多。至于说句首大写导致的误杀,我觉得也不必考虑,因为一个词只要出现两次以上,总会有一次不在句首的。
另外就是带连字符的合成词,这时候我倒是觉得应该采用你之前那个拆解的办法。即,如果该合成词词典里存在,那么算是词;如果不存在则拆开,如果拆开的两半各自存在,则计算到各自的词;如果拆开后有一方不存在,则直接丢弃,这可以排除掉一些特殊表现手法带来的连字符。
另外,统计书籍也可以分类,比如小说类,政经类,新闻类,可以看看各个词表的适用性,一定很有趣。比如我只看小说,就想优先背用得上的,实际上现有的通用性词表就不太适合,哈利波特第一册就能有1000多个词频10000以后的,20000以后的都有好几百。
1 个赞