获取 VocabularyCOM 完整词表

bt4baidu 爬该网站,是用 WordNet 词表去撞,显然漏了一些词条,比如 Obama, selfie, screenshot 等。后来的人用更大的外部词表去撞,理论上也没爬完整。

这里我利用网站 autocomplete 接口获取完整原生词表。因为此接口每个关键词只返回 500 条结果,所以我进行了分类递归查询。

6 Likes

Vocabulary.com 2023.09.12 (欢迎使用反馈) - 英英 - FreeMdict Forum

网盘里有2023年9月11日爬取的索引和html, 其中索引词头也是通过自动补全接口获取的

你通过自动补全接口暴力获取了多少词条?看最早截图,118651么?

但是直接搜索通配符 *,返回的词条总数 data-total = 148373。

这次我采用递归方法,想看看能从接口得到多少条。

*[0-9./]*
[a-z'?]+*

开始的时候,条件有问题,漏了一部分数据
后面补上了总共 148373

O兄你必须完工,必须离线语音,你做的那个英汉汉英已经碾压iOS自带了(英美发音都有离线)。bt兄的最大问题除了您提到的漏词外,就是没有离线发音,点一下发音,等好几分钟。事实证明,只有mdx可以永流传。网站随时可能倒闭(麦克米伦已经垮掉了)。

正好,那应该没缺了。

让我困惑的是,手上 bt4baidu 的词表 + 个人爬的仅有两段解释的 Mini 版词表,明明缺词,合计却有 148844 条。等拿到接口词表再对比差异。

与手上的旧词表初步对比,自动接口词表缺少了 1000 多个词,比如 vagina, ED, LSD 等,可能是审查原因,也可能网站曾删过词条。今晚我会给出一个更完整的合并词表。

3 Likes

Looking forward for another masterpiece.

(帖子已被作者删除)

4 Likes

(帖子已被作者删除)

1 Like

(帖子已被作者删除)

WordNet 3.0 lemmas + VCMV + autocomplete 三表合一

newvcwordlist.7z (502.6 KB)

WN 部分与 bt4baidu 词表完全一致。

2 Likes