bt4baidu 爬该网站,是用 WordNet 词表去撞,显然漏了一些词条,比如 Obama, selfie, screenshot 等。后来的人用更大的外部词表去撞,理论上也没爬完整。
这里我利用网站 autocomplete 接口获取完整原生词表。因为此接口每个关键词只返回 500 条结果,所以我进行了分类递归查询。
bt4baidu 爬该网站,是用 WordNet 词表去撞,显然漏了一些词条,比如 Obama, selfie, screenshot 等。后来的人用更大的外部词表去撞,理论上也没爬完整。
这里我利用网站 autocomplete 接口获取完整原生词表。因为此接口每个关键词只返回 500 条结果,所以我进行了分类递归查询。
Vocabulary.com 2023.09.12 (欢迎使用反馈) - 英英 - FreeMdict Forum
网盘里有2023年9月11日爬取的索引和html, 其中索引词头也是通过自动补全接口获取的
你通过自动补全接口暴力获取了多少词条?看最早截图,118651么?
但是直接搜索通配符 *,返回的词条总数 data-total = 148373。
这次我采用递归方法,想看看能从接口得到多少条。
*[0-9./]*
[a-z'?]+*
开始的时候,条件有问题,漏了一部分数据
后面补上了总共 148373
O兄你必须完工,必须离线语音,你做的那个英汉汉英已经碾压iOS自带了(英美发音都有离线)。bt兄的最大问题除了您提到的漏词外,就是没有离线发音,点一下发音,等好几分钟。事实证明,只有mdx可以永流传。网站随时可能倒闭(麦克米伦已经垮掉了)。
正好,那应该没缺了。
让我困惑的是,手上 bt4baidu 的词表 + 个人爬的仅有两段解释的 Mini 版词表,明明缺词,合计却有 148844 条。等拿到接口词表再对比差异。
与手上的旧词表初步对比,自动接口词表缺少了 1000 多个词,比如 vagina, ED, LSD 等,可能是审查原因,也可能网站曾删过词条。今晚我会给出一个更完整的合并词表。
Looking forward for another masterpiece.
(帖子已被作者删除)
(帖子已被作者删除)
(帖子已被作者删除)