bt4baidu 爬该网站,是用 WordNet 词表去撞,显然漏了一些词条,比如 Obama, selfie, screenshot 等。
7 个赞
Vocabulary.com 2023.09.12 (欢迎使用反馈) - 英英 - FreeMdict Forum
网盘里有2023年9月11日爬取的索引和html, 其中索引词头也是通过自动补全接口获取的
你通过自动补全接口暴力获取了多少词条?看最早截图,118651么?
但是直接搜索通配符 *,返回的词条总数 data-total = 148373。
这次我采用递归方法,想看看能从接口得到多少条。
*[0-9./]*
[a-z'?]+*
开始的时候,条件有问题,漏了一部分数据
后面补上了总共 148373
O兄你必须完工,必须离线语音,你做的那个英汉汉英已经碾压iOS自带了(英美发音都有离线)。bt兄的最大问题除了您提到的漏词外,就是没有离线发音,点一下发音,等好几分钟。事实证明,只有mdx可以永流传。网站随时可能倒闭(麦克米伦已经垮掉了)。
与手上的旧词表初步对比,自动接口词表缺少了 1000 多个词,比如 vagina, ED, LSD 等,可能是审查原因,也可能网站曾删过词条。今晚我会给出一个更完整的合并词表。
3 个赞
Looking forward for another masterpiece.
3 个赞