日语词频词典NLT mdx

NLT.css (279 位元組)
NLT.mdx (2.8 MB)
来源是这个Excel文件

仅供学习交流使用,欢迎指出问题

12 个赞

论坛里原有一个叫NLB的词典,不清楚与我这个是什么关系。借用了它的css。
截圖 2022-10-13 上午1.55.21

5 个赞

熬夜爆痘啊姐妹
凌晨两点发帖哇

NLB、NLT皆采用同一套语料库搜寻系统,即日本国立国语研究所(国立国語研究所,National Institute for Japanese Language and Linguistics:NINJAL)和Lago语言研究所(Lago言語研究所)共同开发的语料库搜寻系统「NINJAL-LWP(NINJAL-LagoWordProfiler)」。

NLB全名為「NINJAL-LWP for BCCWJ」,数据基於日本国立国语研究所建构的「现代日语书面语均衡语料库(現代日本語書き言葉均衡コーパス,Balanced Corpus of Contemporary Written Japanese:BCCWJ)」,总语汇量约1亿笔,其资料来源几乎皆本於书籍(如教科书、畅销书、雑志、法律、国会会议録……),风格或许较近书面文字。

NLT全名為「NINJAL-LWP for TWC」,数据基於「筑波网路语料库(筑波ウェブコーパス,Tsukuba Web Corpus: TWC)」,总语汇量约11亿笔,其资料来源则是从诸多日语网站收集而来,风格或许较近日常语言。

聊备数语,由衷感谢楼主的制作。

6 个赞

感谢。
我选了几个词条,把那个帖子里的NLB和 利用規約┃NINJAL-LWP for BCCWJ 对比了一下,数据是一致的,看来不用重新制作NLB了。

3 个赞

那个顺位是什么意思啊

1 个赞

按理说是指编号,但是为啥是小数点。。

1 个赞

建议增加一项序号,说实话频度真没啥用,看了也不知道到底有多常用。可以用excel生成一个序列号。比方说这个“登録”排名735,一下子就知道是超级常用词了。
另外如果NLB和NLT的顺序并不完全一致,是不是可以合并,同时显示,就有点像英语词频词典里同时提供COCA和iWeb序号了。不知道从NLB.mdx恢复到原始数据是否容易。NLB的xls文件好像已经下不到了。

1 个赞

It should be noted that the freely available data do not actually contain the original writing of the word as it is present in the source material. For instance, “かわせみ” can be written as “翡翠”, “川蝉”, “川蟬” among others but most of the words get bundled into a single writing. The original data can be looked using this site:
应该注意的是,免费提供的数据实际上并不包含源材料中存在的该词的原始书写。例如,"かわせみ "可以写成 “翡翠”、“川蝉”、"川蟬 "等,但大多数的词都被捆绑在一起写。原始数据可以通过这个网站查看:
https://chunagon.ninjal.ac.jp/

Here is a visual example of the source material using “翡翠” but the dataset groups it under “川蝉”.
下面是一个使用 "翡翠 "的原始资料的直观例子,但数据集将其归入 “川蝉”。

The full data can be purchased but it is extremely expensive.
完整的数据可以购买,但非常昂贵。

2 个赞

小数点是 1-编号/总数
值越大表示越常用

是的,频度不如排序,像COCA词频那样。

1 个赞

谁能把频度改为排序?

希望有人把顺位的百分数改成序号。

你好,我加的顺位就是序号,只是化为了百分数形式。
再说如果只用NLT的话,改成序号意义也不大;如果和NLB比较,则需要更科学的统计方法。

首先非常感谢楼主无私贡献了这么一个非常棒的词频词典,词频词典是我的一个刚需,因为通过它我能很容易知道这个词在日常使用中的频度,比如我查一个英语单词“define”,我看COCA里它的排序是4415,那我就知道这个词是TOP5000词汇,我是必须要掌握的;

而我如果查日语单词“流用”,它的顺位是0.80918,这是什么概念呢?

是TOP10000里的词,还是TOP20000里的词呢?这个百分数的分母是多少呢?Excel表里好像是98185行,那这个“流用”的排序就是98185*(1-0.80918)=18735。

经过这么一次计算,我才能知道这个词是TOP20000的词。总之可能是使用习惯的问题吧,我觉得这样有点小麻烦。
如果楼主能够辛苦下,把顺位的百分数改成序号,重新导出一个mdx,小生感激不尽! :pray:

1 个赞

请问这个 BNC+ANC+COCA词频词典 哪里下载,挺简洁的,好像COCA用的是6万词频而不是几十万词频。

我用的是这个:

通过百度网盘分享的文件:
链接:https://pan.baidu.com/s/1DJBrT3MJ2qSXgl4rCjVywg
提取码:COCA

2 个赞

好吧,我是觉得百分比来度量词频更直观,可能是我的问题:thinking:
你可以自己从源文件改,加一列行号,然后再从Excel转mdx,不难的

1 个赞

哪里有教程吗?不会啊。

另外,NLT表格里面的标点符号都可以删掉的。