国立国語研究所 現代日本語書き言葉均衡コーパス (BCCWJ)
現代日本語の書き言葉の多様性を把握するために構築したコーパスで,書籍,雑誌,新聞,白書,Web,法律などから無作為に抽出した約1億語のテキストに形態論情報,文書構造タグを付与し,オンラインおよびDVDで公開しています。
https://c-t.work/s/93571d2bd4e544
提取码auif3i
国立国語研究所 現代日本語書き言葉均衡コーパス (BCCWJ)
現代日本語の書き言葉の多様性を把握するために構築したコーパスで,書籍,雑誌,新聞,白書,Web,法律などから無作為に抽出した約1億語のテキストに形態論情報,文書構造タグを付与し,オンラインおよびDVDで公開しています。
https://c-t.work/s/93571d2bd4e544
提取码auif3i
话说这个数据哪里来的哦?
BCCWJ给出的数据
https://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu.html
最少也有18万啊
你这个8万多单词,抽选的依据是什么?
原来这网站的数据只有8万多个啊
我一直以为是全部咧
能否把数据列补完整呢?
缺少读音和罗马字
谢谢
另外
这里是10万的
http://nlt.tsukuba.lagoinst.info/search/
话说
这个列表是怎么抓出来的?
直接改一下每页显示的数量复制粘贴就可以了,不卡的话直接改几万,读音和罗马字没必要。
请问在哪里改数量了?
下面只能选择的哇?
浏览器中右键-检查
谢谢,原来还可以这样。
我统计了下数量
分词类,合计89369
但是,すべて 85112
搞不懂怎么还少4千个。。。
名詞 55056
動詞 24719
形容詞 3417
連体詞 110
副詞 1810
オノマトペ 4257
合计 89369
すべて 85112
链接失效了,可以补链吗?