打算花6000元买一个英语语料库,有没有人给些建议

I plan to spend 6000 yuan to buy an English corpus. Does anyone have any suggestions?

1 Like

What kind of English corpus?

From where? Only English to English or English to Chinese?

coca````````

coca``````````

i haven’t made the final decision. i think this is the best choice for me, and i didn’t find any other bigger, newer and richer corpus.

COCA的size是10亿,english-corpora.org上面有6个比它大的corpus,最大的203亿。

语料库是corpus,不是词典。

你应该知道每天可以免费查20次对吧? 问一下是因为你不知道coca不是最大的。

你应该说下买回来准备干啥。

嗯,我知道有几个比它大的,但是它是唯一一个TV/Movies subtitles, blogs, web pages, spoken, fiction, magazines, newspaper, academic。这些类型都有的。NOW比它大20倍,但是它是只有newspapers and magazines。

简单来说就是,在线那个查询不太满足我的需要了。没法进行一些复杂的查询,下载下来我可以用python进行一些更复杂的查询。

1 Like

for what purpose?

Mainly to learn English

如果仅是为了利用语料库进行英语学习,而不是因为是研究机构或者大学老师等,必须要用语料库进行学术研究的话,我认为没这个必要。6000块钱可以买好多好多与英语学习有关的书籍还要音视频资料。而语料库仅仅是购买了一定时间的使用权,说不定这段时间用的少,就等于白费了钱。

“仅仅是购买了一定时间的使用权” 应该不是一定时间的,买了就一直可以用啊
确实有点贵,不过还在我的承受范围内,而且我也没找到类似的更便宜的替代。。。我目前是用着bnc的,但是bnc的词数只有coca的1/10。

胃口大,可以试试这个免费的, 15T tokens ,大致相当于COCA 体量的一万倍。HuggingFaceFW/fineweb · Datasets at Hugging Face

3 Likes

这个太大了哈哈,我研究研究读取容易不

网上有人从官网下载下来完整的搭配和词频表。2万的,6万的都做成了词典。你可以找找,实在找不到问我要。

1 Like

嗯,这个我知道,但是没有全文 :smiley: