閒聊:漢字部件大合輯

今天看到一篇 分享:汉字部件组字字典,含源文件,汉语学习的辅助字典 覺得實用

想著或許可以集合每個版本的漢字部件,做個更實用的大合輯

第一步當然就是列出所有實用的部件版本了

首先是從既有字辭典的部首而來

  1. 東漢《說文解字》,許慎。計 540 部首。
  2. 遼代《龍龕手鏡》,釋行均。計 242 部首。
  3. 南梁《玉篇》,顧野王。計 542 部首。
  4. 清代《康熙字典》,張玉書、陳廷敬。計 214 部首。
  5. 1994《中华字海》,冷玉龙、韦一心。計 210 部首。
  6. 2014《汉字海》,蓝德康、松岡榮志。計 266 部首。

接著是研究的成果

  1. 南宋《六書略》《七音略》,鄭樵。分 870 聲母、330 形母,計 1200 部件。
  2. 1982《中文字根孳乳表稿》,周何。分 869 聲母、265 形母,計 1134 部件。
  3. 1996《现代汉字部件探究》,费锦昌。計 384 部件。
  4. 1997《信息处理用 GB13000.1 字符集汉字部件规范》,国家语委。分 393 組,計 560 部件。
  5. 2003《基础教学用现代汉语常用字部件规范》,国家语委。分 461 組,計 540 部件。
  6. 2009《现代常用部件及部件名称规范》,国家语委。分 441 組,計 514 部件。

最後是網上資料

  1. 小學堂。正體字計 441 部件、簡化字計 367 部件。
  2. 全字庫。計 517 部件。
  3. 字海網。計 242 部件。
  4. 字源。計 958 部件。
  5. 古音小鏡。計 5355 部件。
  6. WFG部件檢索。分 22 組,計 676 部件。

漢字部件大概是這些版本

我發現要蒐集這些不同版本的資料太困難

沒原始資料情況下基本上無法製作《漢字部件大合輯》

所以這篇只能選擇 閒聊吹水 分類了

3 Likes

一起闲聊,提供一些信息。期望有人出手,做出更多成果。

提供汉字拆分信息一些其他地方。

  1. https://qxk.bnu.edu.cn 汉字全息构形查询
  2. Unihan Database Lookup
  3. https://babelstone.co.uk/CJK/IDS.TXT # Ideographic Description Sequences (IDS) for CJK Unified Ideographs
  4. 字形IDSデータ
  5. 汉文博士软件
  6. GitHub - kfcd/chaizi: 漢語拆字字典
  7. 【Mastameta】部件檢索(改裝)1.17更新
  8. https://learnm.org/ [excel拆分文件下载] https://learnm.org/static/data/ChineseCharacterMap.xlsx
  9. GitHub - ButTaiwan/hanseeker: Find all Han characters in Unicode by parts 其中包含文本拆分文件,如https://raw.githubusercontent.com/ButTaiwan/hanseeker/main/source/data_nosupp.txt

汉英简明解释:
如果需要汉英简释(汉英词典多如牛毛,但是收字广泛、释义简明的很少),可以考虑Unihan的释义: https://raw.githubusercontent.com/unicode-org/unihan-database/main/kDefinition.txt

疑问:关于汉汉词典,有哪个词典提供简明的释义呢?

对汉字或部首/排序:
可以使用它们的笔画顺序码(横竖撇捺折分别用12345表示等等)排序。为什么需要排序?比如10画的部件,可能有几百个,如果没有排序的话,在某些场合,肉眼寻找某个部件,相当不便。一个笔画码文件:

另外,关于笔画码排序,有一个技巧:将笔画码转换成带小数点的数字,这样就更方便排序。示意:

image

杂想:
网络上很多拆分数据很芜杂(同一个拆分表可能出现草、艹、䒑、 艸;月,肉,⺼)。拆分理念也不同,有的把汉字多数只拆成2个部件,有的拆成很多细小的部件。不同拆分数据之间整合起来有困难。

分享一个正则:
如何在给定汉字清单中删除指定的汉字?
比如下面excel表中M列,我只想保留通用字表一级汉字三千五百个汉字,如何做到?
先把这些文字复制到文本处理文件,比如emeditor,使用正则替换,然后再复制回excel表。
使用正则替换示意:[^这里输入通用字表一级汉字三千五百个汉字],替换成空白。

更好地分享的倡议:
为了更好的分享、造福社区,如果谁有什么成果,建议把源文件 、文本、过程文件、流程描述等也一并提供,方便他人再次利用。既然分享了,我们就分享地彻底些吧!

4 Likes