英语作为世界语,有诸多的按词频排序的单词列表。那么作为母语人数最多文本的中文是否也有比较可靠的按词频排序的单词列表呢?
我在论坛简单搜索了下,没有找到,感到多多少少有些莫名遗憾。毕竟连法语这样的“小语种”也有很不错的开放的按词频排序的单词表。作为超级大语种的中文文本,应该不至于没有吧。
有论坛的朋友指个路不?需要以词为单位。
英语作为世界语,有诸多的按词频排序的单词列表。那么作为母语人数最多文本的中文是否也有比较可靠的按词频排序的单词列表呢?
我在论坛简单搜索了下,没有找到,感到多多少少有些莫名遗憾。毕竟连法语这样的“小语种”也有很不错的开放的按词频排序的单词表。作为超级大语种的中文文本,应该不至于没有吧。
有论坛的朋友指个路不?需要以词为单位。
可以看《现代汉语常用词表》,但这本似乎还没有文字化资源,可以OCR一下子。
有《现代汉语常用词表:草案》,商务印书馆,2008. 和《现代汉语常用词表》(第二版),商务印书馆,2021.
所以中华人民共和国教育部官网上面是个商业广告?这……
Steve-Cheung-emct/ptxt_list: 识典古籍全库漢字频率表
以下是我合并的两个表:
汉字频率总表_合并版.xlsx (2.6 MB)
汉字覆盖率统计对比.xlsx (9.3 KB)
以下是在上述那个表的前1万(还是1万2来,我忘了,似乎已经覆盖了98%左右的用字)或在L2或者思源CJK字体中有的,筛选后的频率表:
汉字频率总表_最终筛选版.xlsx (2.9 MB)
哦,好吧,没仔细看要求,我这个是字表
对于古籍语料,真有分词器能够分准确吗,假如分不准确,那这个频率表也没啥意义