求iWeb Corpus的语料库做成mdx词典分享

如题。

据说抓取难度比较大,每天限定查词多少条这样,还是有人通过换IP成功地抓取了些:
(https://www.pdawiki.com/forum/thread-35701-1-1.html)
([3.6]iWeb词频词典:The 14 Billion Word Web Corpus - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!)

很希望这里有人能抓取一把:doge:

1 个赞

@Hua考虑一下吗?

1 个赞

那个garypang不是抓完了吗

2 个赞

拿到了6万多的iWeb词频的词头(从他/她的“theLittleDict”分离出来)。
想要语料库 :joy: :smile:
没人鸟我 :sob: :disappointed:
对了,Skell Corpus的语料库也不错,抓取应该容易点,抽几分钟写几行应该就好啦哈,反正应该都在躲病毒 :stuck_out_tongue_winking_eye:
益一下广大粉丝^_^

3 个赞

能分享一下吗

the iWeb frequency word list.7z (687.4 KB)
只有这个

2 个赞

你这个列表还是有意义的

今天被击穿了,单词app里集成的词汇量测试测出来都差不多是一万六,然后刚刚看到一个单词不认识见都没见过,一查rank才五千,spoken rank 一万,破防了。内心除了拒绝app测词汇量外,就是想着找个frequency word list 浏览速刷,再慢速二刷。


1 个赞

这个语料库用处当然很大,就看大家怎么提取使用。
我看很多人觉得分文体语境及根据搭配的频率来提示学习者,是一个很的思路。

技术小白,不知道难度怎样,哈哈。

membrane这词在技术领域出现得较多,iWeb采集全网络词频可能就高。做过几个电池领域的案子经常看到,倒不是英文,是日文的片假名 :joy:
词频也只能做参考,不同领域词频差别极大,全范围语料库看起来似乎更权威,但对于分属领域就未必很适用。我最近刚开始看哈利波特第一册,按理说总词汇数也就4400应该简单得不行吧,实际上一大堆词频在1万5甚至2万后的词,而且还都是字母数7以内的所谓“小词”。我感觉词频采集范围越广(例如iWeb这种全网络采集的),对于文学作品的词频可能就不准。

1 个赞

刚学外语的时候讨厌长单词,喜欢短的单词;
后来我发现我肤浅了,短的我也不欢喜 image

长词好背啊,基本上都是词根词缀组合。短词就只能靠经常看到,如果是词频不高的,就死活记不住。

1 个赞