bud
1
0323,重新处理了一版数据。凡涉及需耗时人工参与的工作均没做。力有未逮,浪费时间,不折腾了。源数据在网盘,有兴趣的自行处理。处理过程中引入了一些错误,自行甄别。
下载链接
在 @amob 的帮助下,共爬取132366条数据,合并相同词头后还剩128532,见下:
macquarie_hw.txt (1.4 MB)
离线了图片和音频,提取了部分短语;没做任何排版,需要大家diy。
下载链接
https://cloud.freemdict.com/index.php/s/BpnGcMsFkZ4bFJK
截图
12 个赞
我记得Macquarie词典的特点是单个义项前加上了音标。对同形异音异义词的查阅有帮助,一目了然。
1 个赞
最大的特点是澳洲自产的辞典,
收录当地的用法。
Australia’s National Dictionary
bud
5
感兴趣的朋友可以将上面链接里的澳洲本土词汇做成mdx,我懒得搞了。
2 个赞
amob
6
160000是算上短语的,120000词头是正常的,我用枚举方式爬的,不可能缺的严重
1 个赞
amob
8
都说了枚举了。枚举字母组合+枚举id。只是id位数太多跑不完,全部跑完得几千小时,最多缺几十个。
2 个赞
cmm
10
Someone talented should fork this gorgeous design now

4 个赞
amob
12
短语提取的很好,爆赞。一个小缺点,这种可以提取出来:Order of the Bath,希望楼主完善。
bud
13
我发现了这个问题,后面再处理吧。重定向链接提取得很粗糙,有错误。
Offline pronunciation icon doesn’t show.
词头可以通过依次查询 数字 1-9,字母a-z 分页接口获取
curl https://api.macquariedictionary.com.au/macquirebackend/wordmap/bigMacEntries
-X POST
-H “Authorization:Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VybmFtZSI6IjEwMDAwMCIsImlzcyI6Imh0dHBzOi8vd3d3Lm1hY3F1YXJpZWRpY3Rpb25hcnkuY29tLmF1IiwiaWF0IjoxNzQxNjk3MTg1LCJleHAiOjE3NDE3ODM1ODV9.YXXW9bCwwJ-qh0Hpf8bhUmnB0DueLzTkZEwAI_wODG8”
-H “Content-Type:application/json”
-H “User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Mobile Safari/537.36 Edg/134.0.0.0”
–data-raw {“searchQuery”:“a”,“searchBy”:“663d6b554545c74849a80b6a”,“page”:2,“accountType”:“”,“subscriptionType”:“3”,“selectedDictionaryType”:“dictionary”,“relatedSearchFlag”:true}
2 个赞
amob
18
我也用的这个接口,我记得只查单个字母是不全的,所以才说用字母组合。
这个网站接口返回不是前缀,枚举效果不好
可以用之前第一步的词头再去查询,找出新词头
将每次新词头多跑几次估计能覆盖全
Howie
20
css和js.zip (3.2 KB)
html结构不好,css和js“缝缝补补”,风格跟6th保持一致
5 个赞