HDC 原始数据

1G 文本 / 318535 条数据 / 包含官方标注的拼音数据

已知缺少四字词条,部份词条缺少亦作、参考等跳转链接。数据里附带的笔画和音频的下载链接我都删除了,因为链接有时效性,获取这份数据耗时一个多月已经过期了,其它文本数据和官方一致。

请不要讨论数据来源,官方数据还在修订,会给之后补齐数据增添困难。

感谢多位坛友的帮助!

解压密码

论坛网址,无 https://

10 个赞

啥东西呀?仅是文本吗,还是mdx呀

1 个赞

多谢楼主,功德无量!但里面有私有字,能不能把字体也弄下来?

没有字体的,四字词也缺,这个就是凑合用的。真要完美的自己想办法扒总汇。

你有总汇的词头吗?

没有。当时只弄了“一”就出问题了。

1 个赞

总汇上的私有字体与这个对不上

他的数据似乎沿用的旧版本的,不可解释的是有些词条书证有,但是义项缺失的,比如“痊愈”条,少了泛化义。但光盘版是有的 :sweat_smile:

1 个赞