求助:《Unihan數據辭典》

網上能找到《Unihan數據辭典》是 2009年 由 Blankego 打包的 MDX版。
在 Unicode Han Database(Unihan)5.1.0 基礎上整理擴充而成。共收錄71234個漢字及相關數據。

Unihan 官方網站為:Unihan Database Lookup
目前2022年,版本已經更新到 14.0 了,求新版 《Unihan數據辭典》MDX版。

1 个赞

本坛似乎没有大神爱做Ucd的mdx。假如没人愿意做,楼主可以下载了官网数据自己做。

最新官网数据下载:

Latest Version of the Unicode Character Database
All files for the most up-to-date version of the Unicode Character Database can be found at: http://www.unicode.org/Public/UCD/latest/

说明见:

About the Unicode Character Database
https://unicode.org/ucd/

本坛只有一个很旧的mdx:

Index of /100G_Super_Big_Collection/汉语/数码/
Unihan數據辭典.mdx
https://downloads.freemdict.com/100G_Super_Big_Collection/汉语/数码/

3 个赞

我提取过U14 93868汉字部首+41422拼音。就只有文本。

其实我建议做出一个转换工具来,可以随着Unihan数据的更新快速转换出新的版本 当然前提是Unihan没有增加新的项目

编码、区块、部首、拼音、粤拼、繁异、释义、提交源,等几项。

Unihan15.1 SQLite导出.txt (8.4 MB)

1 个赞

大侠sqlite都导出好了,有做mdx么,做了的话我就不重复劳动了。

有2022年做的,到Unicode14.0。

你弄吧,我没考虑好。暂时这个已经够我用了。我只是用来弄输入法内置的小词典。

官网的辞典年前已经抓了一部分,过了年忘了,心也淡了。这个辞典和unihan数据应该只是组成方式不同而已,用数据也可以做字典。但既然已经抓了一大部分,还是抓完吧。