Diccionario de la lengua española RAE

不加动词变形和短语,词条数量92437,包括部分阴性名词,有可能会漏掉一些词条
加了动词变形和短语,词条数量565396
展示视频

文件见17楼

4 个赞

最抓狂的是短语提取,好多变形,正则表达式不管用,只能一步一步调试,大部分是手动调整的:face_with_spiral_eyes:

Could you please upload the dictionary in another server ? :pray:

Baidu is not available outside of China :frowning:

We would like to add it to our collection of 400 GiB in dictionaries at FreeMDict:

Thank you very much! :smiley:

1 个赞

Our friend @Wankata would also like to download the .mdx and mirror the file on a Russian server :smiley: Thanks for your great work as usual… :pray:

2 个赞

Sir Abbas already shared it in the Telegram:

Mirror 1 | Mirror 2

By the way, already 441 GB. :slight_smile:

3 个赞

You are amazing, dear Friend @Wankata ! Thank you so much ! :smiley:

Your contributions have helped thousands of people around the world… :pray:

2 个赞

看视频上内容,你这抓取的是改版后的。见改版说明:https://www.rae.es/noticia/la-rae-presenta-las-novedades-del-diccionario-de-la-lengua-espanola-dle-junto-una-nueva-0
这字典我在改版前抓取过两次。
请问楼主,你在爬取前,是从哪里获取完整的词头的。
这个问题,我们可以沟通交流下。
制作辛苦,感谢无私分享。

你是Bartleby兄吗?好意外。

你好,你好啊。

词条是否没下载完?如a词条,有a¹,无a². 多词头的词条,是否第二个以后的内容没提取?词性变化,能处理一下最好。

https://github.com/Antonito-de-Nebrija/RAE_leak_ias
这上面两个链接(第二个链接打不开我不知道为什么),我各取比较新的内容或者第一个链接里最新的和最大的(不知道哪一种方案,我记不得),两个文件合并词头去重操作,有少数词条内容会重复的,再加上动词变位就在下面链接

其实词头文件是旧的,抓数据并不全。我检查了一下原文件(ListadosPalabrasRAE,见 #13 )确实漏掉了“a”,正纳闷着为什么之前能抓到到"a"但漏掉内容:joy:

DLE (From GitHub).zip (4.0 MB)
我以为删掉了,看了一下还在,感谢时间机器备份:joy:

a 有两个词条,输入a的链接得到a¹ 的内容,页面不含a² 的内容,a²的内容在另一个链接的页面。有类似情况的词条都受影响,如acotar等,数量不少。需要把含有上标的词条提出来一个个处理。或者能在序号1的页面上找到其他的链接?这需要好好查一下才清楚。

嗯,确实能找到,这样要补充就容易了。

我仔细看了一下,应该是正则的问题,不只是“a”,还有“ abalear”……都漏掉了,到时候我补上吧。感谢反馈

25.5.19 更新:

  1. 删除几十处无效的词条
  2. 完善多词头的词条
  3. 优化了词组跳转的问题

RAE.7z.001 (19.1 MB)
RAE.7z.002 (19.1 MB)
RAE.7z.003 (19.1 MB)
RAE.7z.004 (1.3 MB)

感谢更新,辛苦了。

可以用 https://cloud.freemdict.com/