日本国立国语研究所的语料库词频

国立国語研究所 現代日本語書き言葉均衡コーパス (BCCWJ)

現代日本語の書き言葉の多様性を把握するために構築したコーパスで,書籍,雑誌,新聞,白書,Web,法律などから無作為に抽出した約1億語のテキストに形態論情報,文書構造タグを付与し,オンラインおよびDVDで公開しています。

https://c-t.work/s/93571d2bd4e544
提取码auif3i

1 Like

话说这个数据哪里来的哦?

BCCWJ给出的数据
https://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu.html

最少也有18万啊
你这个8万多单词,抽选的依据是什么?

我是在http://nlb.ninjal.ac.jp/search/下的

原来这网站的数据只有8万多个啊
我一直以为是全部咧

能否把数据列补完整呢?
缺少读音和罗马字
谢谢

另外
这里是10万的
http://nlt.tsukuba.lagoinst.info/search/

话说
这个列表是怎么抓出来的?

直接改一下每页显示的数量复制粘贴就可以了,不卡的话直接改几万,读音和罗马字没必要。

请问在哪里改数量了?
下面只能选择的哇?

浏览器中右键-检查

谢谢,原来还可以这样。

我统计了下数量
分词类,合计89369
但是,すべて 85112
搞不懂怎么还少4千个。。。

名詞 55056
動詞 24719
形容詞 3417
連体詞 110
副詞 1810
オノマトペ 4257
合计 89369

すべて 85112