I plan to spend 6000 yuan to buy an English corpus. Does anyone have any suggestions?
What kind of English corpus?
From where? Only English to English or English to Chinese?
coca````````
coca``````````
i haven’t made the final decision. i think this is the best choice for me, and i didn’t find any other bigger, newer and richer corpus.
COCA的size是10亿,english-corpora.org上面有6个比它大的corpus,最大的203亿。
语料库是corpus,不是词典。
你应该知道每天可以免费查20次对吧? 问一下是因为你不知道coca不是最大的。
你应该说下买回来准备干啥。
嗯,我知道有几个比它大的,但是它是唯一一个TV/Movies subtitles, blogs, web pages, spoken, fiction, magazines, newspaper, academic。这些类型都有的。NOW比它大20倍,但是它是只有newspapers and magazines。
简单来说就是,在线那个查询不太满足我的需要了。没法进行一些复杂的查询,下载下来我可以用python进行一些更复杂的查询。
for what purpose?
Mainly to learn English
如果仅是为了利用语料库进行英语学习,而不是因为是研究机构或者大学老师等,必须要用语料库进行学术研究的话,我认为没这个必要。6000块钱可以买好多好多与英语学习有关的书籍还要音视频资料。而语料库仅仅是购买了一定时间的使用权,说不定这段时间用的少,就等于白费了钱。
“仅仅是购买了一定时间的使用权” 应该不是一定时间的,买了就一直可以用啊
确实有点贵,不过还在我的承受范围内,而且我也没找到类似的更便宜的替代。。。我目前是用着bnc的,但是bnc的词数只有coca的1/10。
胃口大,可以试试这个免费的, 15T tokens ,大致相当于COCA 体量的一万倍。HuggingFaceFW/fineweb · Datasets at Hugging Face
这个太大了哈哈,我研究研究读取容易不
网上有人从官网下载下来完整的搭配和词频表。2万的,6万的都做成了词典。你可以找找,实在找不到问我要。
嗯,这个我知道,但是没有全文