Diccionario de la Lengua Española 23.ª edición 原数据在何处？

Howie · 2024 年2 月 12 日 09:29

mdx 标签很乱，源代码惨不忍睹。
mdx（如下图），css样式我已经尽力了，没有办法再进一步美化。

原网站应该是 RAE（如下图）

SiteMap在哪里？我个人觉得抓取词条很困难。抓单词还要抓单词里的词组
那么mdx原数据在哪里？

amob · 2024 年2 月 12 日 10:04

看文不仔细啊，都说是电子书转的，有两个不同大小的，不知道区别：

haoshu · 2024 年2 月 12 日 10:50

这个mdx原来没css，看着其实也还挺整齐，但是变位表没显示，数据里还没有同反义词。原链接中说原始数据是Kindle，那似为某个mobi文件。或可从epub重做

Howie · 2024 年2 月 12 日 10:59

明白了，那么如何获取wordlist？若没有，我可以不可以提取mdx里所有词条抓取网站？150万……可能会有重复的。这方法好像不可取吧？

haoshu · 2024 年2 月 12 日 11:04

我之前做过一个去除各种变形的mdx，共93077条，这个没重复Diccionario de la Lengua Española V23

Ambulante · 2024 年2 月 12 日 12:48

确实，这个词典的可视性极差