鸿雁输入法——整句输入法中一颗冉冉升起的新星

殆知阁数据我跑完了

殆知阁数据有个缺点是有的文章全篇下来没有标点,这对于16个汉字长度的词语会带来大量垃圾数据,所以分析的时候把长度过长的行数给剔除了