分享:汉字部件组字字典,含源文件,汉语学习的辅助字典

(最新内容依次在最下面)
2022-08-13补充:
这里分享的不是mdx词典,而是pdf,txt等文件。这个字典或许叫做《部件组字速查手册》(Quick reference manual for chinese characters, classified by components not only by radicals)更贴切。这个手册最大的用途是,打印出来查阅、或作为pdf直接查询;它的主要服务对象或许是学习汉语的人员,学生等。关于部件检索,有很多专业的词典,但这个手册有其便利之处。
原帖: 2022-08-12
分享一个小字典,勉强算上是字典吧,分享源文件和成品pdf字典,pdf字典也就50多页而已。
人狠话不多,就直接上图和分享了。





适用人群:学习汉字、教授汉语人员。适合打印出来,马上、厕中、教桌上,随手翻看,或许有用。

字典简介:以部件为单元,把含有同一个部件的汉字(常用汉字,大约6000多个)都列出来;传统上,比如大部分字典,一般是以部首(而不是部件)单位,把汉字列出来,这做有一定的局限性,比如,如果想找含有“甫”这个部件的汉字,在传统的字典好像不容易找出来。

花絮:提供过程中的源文件(xlsx,txt,doc等)下载。

局限:暂没有给汉字加释义。

额外馈赠:源文件xls和其他文件中,展示了一种思路,那就是如何用笨方法做自己的词典,具体来说就是,就是如何给自己的汉语词典加一个部首检字表。从这个角度出发,我们可以整理那些秀色可餐的词典,可以打印出来的,比如这个《学生字典》很有价值,又饱含情怀:WFG: 《學生字典》
(这里提及了这个学生字典》:https://forum.freemdict.com/t/topic/12434/2)
%25E5%25AD%25B8%25E7%2594%259F%25E5%25AD%2597%25E5%2585%25B81

呼吁:谁能把《学生字典》整理成可打印、带有检字表的pdf版本啊?打印出来,不时翻阅,岂不美哉?期待有达人出手。

主要原始文件来源,并致谢:GitHub - secsilm/zi-dataset: 汉字数据集,包括汉字的相关信息,例如笔画数、部首、拼音、英文释义/同义词等。

2022-08-12,下载(这里的下载老旧了,下面有更多更新后的下载,请用最新的下载):
部件组字字典数据包.7z (2,9 MB)

压缩包内容:

01-原始文件-github.com-secsilm-zi-dataset-zi-dataset csv 2.1 M
02-部件综合信息 xlsx 361.7 K
03-生成word前的文本 txt 145.5 K
04-word部件组字字典 docx 124.4 K
05-输出-部件组字字典 pdf 3.1 M

2022-08-13更新:

  1. 对于最终成果的odt和pdf,做了格式和形式上的修改。部件新增了拼音。

  2. 重要修改:在检字表部分,对于同一笔画下的部件,以前是随机排序的,现在按照笔画顺序(把横竖撇点折分别视为12345,好像很多中文字典也是这么排序的)进行重新排序,这样更方便查找。例如:9画的部件,有147个左右,如果没有按照笔画顺序排序,寻找一个部件是困难的。示意说明:

  3. 这个字典或许叫做《部件组字速查手册》(Quick reference manual for chinese characters, classified by components not only by radicals)更贴切。

  4. 这个手册有一些不完善的地方,如果有更好的数据源,或鄙人水平更高,或许可以做得更好,目前就这么用着吧。

  5. 关于更好地分享的倡议:为了更好的分享、造福社区,如果谁有什么成果,建议把源文件 、文本、过程文件、流程描述等也一并提供,方便他人再次利用。既然分享了,我们就分享地彻底些吧!

  6. 2022-08-13 下载1,各文件分散下载:
    01-原始文件-github.com-secsilm-zi-dataset-zi-dataset.csv.7z (553,8 KB)
    02-常用汉字表.txt (16,7 KB)
    03-单手输入法笔顺码.xlsx (650,7 KB)
    03-部件综合信息.xlsx (470,8 KB)
    05-部件组字速查手册-生成word前txt文件.txt (159,6 KB)
    06-成果-部件组字速查手册.pdf (3,2 MB)
    06-成果-部件组字速查手册.odt.7z (113,6 KB)

  7. 2022-08-13 下载2,所有文件打包下载(和上面文件内容一样,打包更方便):
    部件组字速查手册.7z (3,4 MB)

2022-08-28更新
1,提供:

汉字偏旁部件组字速查手册-一二三级字表HSK版.pdf
汉字偏旁部件组字速查手册-一二三级字表.pdf
汉字偏旁部件组字速查手册-一二级字表.pdf
截图:




打包下载:
汉字偏旁部件组字速查手册-2022-0828.7z (15,5 MB)

7 Likes

我对这个没有研究。

本坛仓库有个“傳承字形部件檢校表.mdx”。楼主有兴趣可以看看。

仓库检索

這個部件字典很實用,感謝製作

剛剛百度了一下,主流的漢字部件有4個以上的版本

之後如果能統合一下就更方便了

1 Like

部首+笔画,英文解释
可以从unicode UCD unihan.zip
里面Unihan_IRGSources.txt、Unihan_Readings.txt提取。
最新的Unicode 15,部首笔画98060字。

谢谢信息。网上也见到有处理好的文本Unihan汉字汉英释义,利用起来更方便,供大家参考:
https://raw.githubusercontent.com/unicode-org/unihan-database/main/kDefinition.txt

另,我在一个相关帖子( 閒聊:漢字部件大合輯 )的回复,和这个主题也有关,我也复制到这里。如下:

一起闲聊,提供一些信息。期望有人出手,做出更多成果。

提供汉字拆分信息一些其他地方。

  1. https://qxk.bnu.edu.cn 汉字全息构形查询
  2. Unihan Database Lookup
  3. https://babelstone.co.uk/CJK/IDS.TXT # Ideographic Description Sequences (IDS) for CJK Unified Ideographs
  4. 字形IDSデータ
  5. 汉文博士软件
  6. GitHub - kfcd/chaizi: 漢語拆字字典
  7. 【Mastameta】部件檢索(改裝)7.26更新
  8. https://learnm.org/ [excel拆分文件下载] https://learnm.org/static/data/ChineseCharacterMap.xlsx
  9. GitHub - ButTaiwan/hanseeker: Find all Han characters in Unicode by parts 其中包含文本拆分文件,如https://raw.githubusercontent.com/ButTaiwan/hanseeker/main/source/data_nosupp.txt

汉英简明解释:
如果需要汉英简释(汉英词典多如牛毛,但是收字广泛、释义简明的很少),可以考虑Unihan的释义: https://raw.githubusercontent.com/unicode-org/unihan-database/main/kDefinition.txt

疑问:关于汉汉词典,有哪个词典提供简明的释义呢?

对汉字或部首/排序:
可以使用它们的笔画顺序码(横竖撇捺折分别用12345表示等等)排序。为什么需要排序?比如10画的部件,可能有几百个,如果没有排序的话,在某些场合,肉眼寻找某个部件,相当不便。一个笔画码文件:

github.com

YQ-YSY/stroke-seq_MB/blob/master/单字码表/单字笔顺.ods

This file is binary. show original

另外,关于笔画码排序,有一个技巧:将笔画码转换成带小数点的数字,这样就更方便排序。示意:

image

杂想:
网络上很多拆分数据很芜杂(同一个拆分表可能出现草、艹、䒑、 艸;月,肉,⺼)。拆分理念也不同,有的把汉字多数只拆成2个部件,有的拆成很多细小的部件。不同拆分数据之间整合起来有困难。

分享一个正则:
如何在给定汉字清单中删除指定的汉字?
比如下面excel表中M列,我只想保留通用字表一级汉字三千五百个汉字,如何做到?
先把这些文字复制到文本处理文件,比如emeditor,使用正则替换,然后再复制回excel表。
使用正则替换示意:[^这里输入通用字表一级汉字三千五百个汉字],替换成空白。

更好地分享的倡议:
为了更好的分享、造福社区,如果谁有什么成果,建议把源文件 、文本、过程文件、流程描述等也一并提供,方便他人再次利用。既然分享了,我们就分享地彻底些吧!

1 Like

這IDS做得挺用心:居然分辨不同地區的字形,例如:

U+4E30 丰
⿻三(GJKV)
⿻⿱㇒二 (HT)

Unicode 字形表長這樣:image

不知道這個地區分辨是否完整。如果完整,可以標上所有 多形 的字碼。
the basic issue is that in any font environment such as 部件檢索,you are limited to seeing only the glyph for that specific region. but dictionaries, especially classical Chinese dictionaries, often use glyphs from multiple regions. in which case, a single font is not enough to accurately represent the dictionary’s headwords.

补充一个能够进行部件查询的网站zi.tools 字統网
以及其以来的精细到笔画级别的IDS拆分数据库,GitHub - yi-bai/ids: Yet another IDS (Ideographic Description Sequences) lists with MIT license