高级汉语词典和国际标准汉字大字典

之前的帖子:

我把那个汉典2020网络版的词头弄出来,一共517128个词头,重新上抓了一遍数据,然后提取出高级汉语词典的部分,一共68735个词头,其中单字词头有8514个,这和高级汉语词典前言里面说的17000余字和20万余词条相去甚远,单字的话应该是包含了繁体和异体,我觉得单论简体的话,差不多也就8000多个吧,词条的话差很多。不知道有没有乐意查查少了哪些词头。 :face_with_open_eyes_and_hand_over_mouth:

高级汉语词典里面有的字头比如,【毐】,汉典里就没收录对应的高级汉语词典里面的解释,这是我发现的,没发现的应该还有 :rofl:,这就没办法了。
数据:
gjhycd.7z (8.6 MB)

然后是国际标准汉字大字典,一共27085个汉字,数据里包含了高级汉语词典的8514个单字的解释,如果想删掉,正则一下就好了。数据:
gjbzhzdzd.7z (5.5 MB)

1 个赞

根据《汉语高级词典》部首检字粗略计算:每页约400字(含多音字、同音多义),约44页。
算下来17600,和标称的17000多字基本上符合。
MDX里,多音字或者同音多义都合并成一个词条。
如算上这些,约15496字。嗯,和17000还是有差距的。

2 个赞

我还发现一个问题,汉典上比如【𦈡】下面是没有释义的,但是【繻】下面的释义是高级汉语词典里的,那51万多个词头里正好没有繻,全是简体的,所以这个数据就没抓到(偶然发现的,手动补上了) :upside_down_face: :upside_down_face:

高级汉语词典,书上有𦈡,而繻只是它的繁体。
MDX只收了繻。

像这样书上是简体,而MDX是繁体,肯定还有。

像⺰,就有很多简体字在B区,而繁体字在基本区。这些MDX都没有。

唉,好麻烦,不想弄了 :upside_down_face:

既不国际也不标准,严格意义上来说,并不是通常意义上的“字典”,而是一个汉字“字符集”,除了中文汉字还有日文汉字。

王同忆先生主编的词典版权有争议,权威性受质疑,仅供参考,但聊胜于无。这本词典中的汉英部分不知从何而来。王先生另一大部头《英汉辞海》可作韦三足本的汉译参考。

说“国际”是因为兼收中、日、韩三国汉字。

说“标准”,是汉字编码标准。

书名没问题。编得不算好,是另一回事。

我把2万7繁体字头又抓了一遍,一合并,单字字头有8601个了,增加了87个,分别是:薆鑣穇筴麨唓紬懤摐鰆鎝賧磾螮濆鈇掆棡騧鉷瓛鐄撝頮縑樫鵁轇儘鶄絅擓壈纇鴷飀瞜圞儸霢璊齯鸊鏺錡鰌麴輮爇鐥鳾繸澾綯鰧鷉鍮喎湋薳榲潕鰼諴哯睍篠謏訢繻鍚釾詒顗憖鮣罃醟軏劚膞鐯劃綵襬钁鮀,它们对应的简体字 :upside_down_face:

离1万都差好多呢

1 个赞

需要考虑这种可能性:

通常电子版不会全收纸版,金山版可能本来就没有收齐全。

汉典大概率是根据金山做的。

你假如只是一直重抓汉典,当然抓不全。

纸版可能有许多异体字,只是注明见某字。这种字金山很可能就不收了。

想收全,只能对一下图像版的词头。


你这8601是从汉典提取的?

金山词霸2007高级汉语词典【shbf原创】这个不重复单字都有8720个。能提取的单字词条15496

汉典里面很多词条的,大部分都不是这部词典里的,对于单字,用那个2万七的字符集去抓的,包含“详细解释”的单字只有这么多了。

汉典的词典来源挺复杂的。

昨夜尝试OCR高级汉语词典的部首检索,但发现一半都是错误。要是有好的OCR方法,还是可以一试。