Diccionario de la Lengua Española 23.ª edición 原数据在何处?

mdx 标签很乱,源代码惨不忍睹。
mdx(如下图),css样式我已经尽力了,没有办法再进一步美化。

原网站应该是 RAE(如下图)

SiteMap在哪里?我个人觉得抓取词条很困难。抓单词还要抓单词里的词组
那么mdx原数据在哪里?

mdx下载地址:
https://061061.xyz/38977.html

1 个赞

看文不仔细啊,都说是电子书转的,有两个不同大小的,不知道区别:

1 个赞

这个mdx原来没css,看着其实也还挺整齐,但是变位表没显示,数据里还没有同反义词。原链接中说原始数据是Kindle,那似为某个mobi文件。或可从epub重做

明白了,那么如何获取wordlist?若没有,我可以不可以提取mdx里所有词条抓取网站?150万……可能会有重复的。这方法好像不可取吧?

我之前做过一个去除各种变形的mdx,共93077条,这个没重复Diccionario de la Lengua Española V23

确实,这个词典的可视性极差