求iWeb Corpus的语料库做成mdx词典分享

如题。

据说抓取难度比较大,每天限定查词多少条这样,还是有人通过换IP成功地抓取了些:
(https://www.pdawiki.com/forum/thread-35701-1-1.html)
([3.6]iWeb词频词典:The 14 Billion Word Web Corpus - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!)

很希望这里有人能抓取一把:doge:

1 Like

@Hua考虑一下吗?

1 Like

那个garypang不是抓完了吗

2 Likes

拿到了6万多的iWeb词频的词头(从他/她的“theLittleDict”分离出来)。
想要语料库 :joy: :smile:
没人鸟我 :sob: :disappointed:
对了,Skell Corpus的语料库也不错,抓取应该容易点,抽几分钟写几行应该就好啦哈,反正应该都在躲病毒 :stuck_out_tongue_winking_eye:
益一下广大粉丝^_^

2 Likes

能分享一下吗

the iWeb frequency word list.7z (687.4 KB)
只有这个

2 Likes

你这个列表还是有意义的

今天被击穿了,单词app里集成的词汇量测试测出来都差不多是一万六,然后刚刚看到一个单词不认识见都没见过,一查rank才五千,spoken rank 一万,破防了。内心除了拒绝app测词汇量外,就是想着找个frequency word list 浏览速刷,再慢速二刷。


这个语料库用处当然很大,就看大家怎么提取使用。
我看很多人觉得分文体语境及根据搭配的频率来提示学习者,是一个很的思路。

技术小白,不知道难度怎样,哈哈。