不加动词变形和短语,词条数量92437,包括部分阴性名词,有可能会漏掉一些词条
加了动词变形和短语,词条数量565396
展示视频
文件见17楼
不加动词变形和短语,词条数量92437,包括部分阴性名词,有可能会漏掉一些词条
加了动词变形和短语,词条数量565396
展示视频
文件见17楼
最抓狂的是短语提取,好多变形,正则表达式不管用,只能一步一步调试,大部分是手动调整的
Could you please upload the dictionary in another server ?
Baidu is not available outside of China
We would like to add it to our collection of 400 GiB in dictionaries at FreeMDict:
Thank you very much!
Our friend @Wankata would also like to download the .mdx and mirror the file on a Russian server Thanks for your great work as usual…
You are amazing, dear Friend @Wankata ! Thank you so much !
Your contributions have helped thousands of people around the world…
看视频上内容,你这抓取的是改版后的。见改版说明:https://www.rae.es/noticia/la-rae-presenta-las-novedades-del-diccionario-de-la-lengua-espanola-dle-junto-una-nueva-0
这字典我在改版前抓取过两次。
请问楼主,你在爬取前,是从哪里获取完整的词头的。
这个问题,我们可以沟通交流下。
制作辛苦,感谢无私分享。
你是Bartleby兄吗?好意外。
你好,你好啊。
词条是否没下载完?如a词条,有a¹,无a². 多词头的词条,是否第二个以后的内容没提取?词性变化,能处理一下最好。
https://github.com/Antonito-de-Nebrija/RAE_leak_ias
这上面两个链接(第二个链接打不开我不知道为什么),是我各取比较新的内容或者第一个链接里最新的和最大的(不知道哪一种方案,我记不得),两个文件合并词头去重操作,有少数词条内容会重复的,再加上动词变位就在下面链接
其实词头文件是旧的,抓数据并不全。我检查了一下原文件(ListadosPalabrasRAE,见 #13 )确实漏掉了“a”,正纳闷着为什么之前能抓到到"a"但漏掉内容
DLE (From GitHub).zip (4.0 MB)
我以为删掉了,看了一下还在,感谢时间机器备份
a 有两个词条,输入a的链接得到a¹ 的内容,页面不含a² 的内容,a²的内容在另一个链接的页面。有类似情况的词条都受影响,如acotar等,数量不少。需要把含有上标的词条提出来一个个处理。或者能在序号1的页面上找到其他的链接?这需要好好查一下才清楚。
嗯,确实能找到,这样要补充就容易了。
我仔细看了一下,应该是正则的问题,不只是“a”,还有“ abalear”……都漏掉了,到时候我补上吧。感谢反馈
25.5.19 更新:
RAE.7z.001 (19.1 MB)
RAE.7z.002 (19.1 MB)
RAE.7z.003 (19.1 MB)
RAE.7z.004 (1.3 MB)
感谢更新,辛苦了。