【已上传】《汉语大词典》2.0 光盘版 软件内提取数据

估计不少。到时候去掉一些无关文本、重复性的差异,自己改掉有把握的之后,余下的生成个表格:注明每个差异所在的字头、位置附近上下文并高亮差异、其他版的旧内容。
把表格附在新MDX后,以待有兴趣、有专业能力的坛友出来主持,在此基础上不断改进。

大体上F4和书上排序一样,但也有许多不同。根据前后页码的差码,大概有400处可能地方,后来细分一下,剩下一半约200,实际上我还没检查完。

这个是查出来,光盘版没收的。凼


只收了05 0897这个
QQ截图20240127104206
𢃕
147C6ABA659CACF4195D51F172699523

𣲵。这条应该有人发现了光盘版漏收。我查到有跳转词头,但没文本。

𣲵 	051082	[zhǐ]《广韵》諸氏切,上紙,章。]水名。参见“𣲵水”。
【𣲵水】	051082	古水名。《山海经·东山经》:“又南百里,曰<u>栒狀之山</u>……<u>𣲵水</u>出焉,而北流于<u>湖水</u>”。
凼 	020506	[dàng]方言。水坑;水塘。亦特指田地里沤肥的小坑。<u>沙汀</u>《青㭎坡》三:“<u>邵永春</u>随手指出山腰上一大群挖渠的人,随即带头走了过去,而越往下走,山脚下一凼凼盛着水的明晃晃的水池,也全部都在眼底了。”又如:水凼;粪凼。
【凼肥】	020506	我国南方把垃圾、树叶、杂草、粪尿等放在坑里沤制成的肥料。
𢃕	030745	[tà《广韵》他合切,入合,透。]帐的上覆。《宋书·礼志五》:“聽事不得南向坐,施帳并𢃕。”
3 个赞

能够发现现有电子版还没收入的字、词,就已经是一种收获。

我想假如能把《汉语大词典》的单字都收齐,这个版本就已经有足够的价值。

《汉语大字典》的单字,有字的应该都已经收入了电子版?

假如拿《汉语大字典》的单字去检测《汉语大词典》的单字,看哪些字没有,再抽查一下,可能会有新发现。

那相差太多了,大词典字头只有大字典的三分之一。
(《大词典》单字约23000个,《大字典》单字60370个。)

Wenlin_ABC_HDC.7z.001 (20 MB)
Wenlin_ABC_HDC.7z.002 (20 MB)
Wenlin_ABC_HDC.7z.003 (20 MB)
Wenlin_ABC_HDC.7z.004 (140.2 KB)

有没有谁会提取音序索引的文本数据?应该能拿来补全字词。

还有两千五自造字 :laughing:

大多数的计算机字集包括约6,500个汉字。其中3,800个汉字能够覆盖大部分读者日常阅读所遇到的汉字的99.9%。剩下的2,700个汉字在典型的计算机字集中已属罕见,它们在一般文本中出现的几率低于0.1%⑤。因此人们可以想象《汉语大词典》中的许多字是如何冷僻和少见。尽管这些字在总数达18,314页的双栏页码中可能只出现一至二次,但在索引的编制和排版中仍然必须顾及。即使是大型的商用计算机字集和特定的软件也很少有超过20,000个汉字的。因此我们必须制作2,500个左右的汉字,占全书所用的23,000个汉字的十分之一以上,并且要将它们安插到我们的排版系统中。这本身就包含着异常巨大的劳动。而且,由于逻辑和技术上的原因,造这些字只能放在工作的最后阶段,即排版阶段。实际上,由于要与排版程序相适应,每一批只能造300个汉字,这像梦魇似地困扰着我们。最后,我们采取了从原来的字库中删去2,500多字而代之以新造字的办法解决了这一难题⑥。这就意味着在最后排版之前,所有的编辑、分类、储存和校核等等工作使用暂时代替那些不常见的字的占位符号。描述这些符号的确切性质和结构是乏味而且不必要的,在这里只要指出它们是精巧而高度复杂的就足够了。

1 个赞

大词典光盘版20900单字,和大字典对了一下,发现约1000个单字大字典竟然没收录。其中大词典收录的有46个,光盘版特有的900+。当然这其中有一些异体字,和大字典收录的不同。

1 个赞

重要提示: 如使用文林4.3版软件学习汉语,该索引并不包括HDC字典的定义。如同印刷版HDC索引本身,它特别适合能够使用22卷HDC印刷版的用户。它还可以方便地拼音输入和网络搜索HDC所有单词。

“看到文林发布了以单向排序字母索引的完整的《汉语大词典》的电子版,我非常高兴。这对痴迷汉语研究的每一个人来说确实是一个福音。”
——梅维恒(Victor H. Mair)教授,ABC汉语词典系列主编

这应该就是2003年的音序检索印刷本?

《汉语大词典‧词目音序索引》 [HDC-I-C]
梅维恒 (编者), 汉语大词典编纂处 (编者)
出版社: 汉语大词典出版社; 第1版 (2003年10月1日)
精装: 1505页
语种: 简体中文
开本: 16
ISBN: 7543209470
条形码: 9787543209473
商品尺寸: 26 x 19.6 x 5.8 cm
商品重量: 1.9 Kg
品牌: 格致出版社
ASIN: B0011AEQLM

看起来就是同一书

索引内文应该相同。

另需注意,这索引只包含两字以上词条,没有单字索引。

原来安娜馆也有。不知道有个英文书名的版本,不然早就检索一下。

Chinese [zh], pdf, 190.1MB, Book (unknown), alphabeticalinde0000unse_i0s8.pdf
An alphabetical index to the hanyu da cidian
Honolulu: University of Hawai’i Press, 2003
Mair, Victor H., 1943- editor; Fang, Shizeng, editor; Han yu da ci dian bian zuan chu, editor

“Victor H. Mair, Editor ; Fang Shizeng, Associate Editor. First Published In China By Hanyu Da Cidian Chubanshe: Han Yu Da Ci Dian : Ci Mu Yin Xu Suo Yin. This Index Contains All Of The 347,426 Multisyllabic Entries Of The Hanyu Da Cidian [1986-1994 Ed.]. It Does Not Contain The Monosyllabic Entries Of The Dictionary, Since A Separate Index Has Already Been Published For Them.–user’s Guide.

12, 1505 pages ; 27 cm

Originally published in China by Hanyu Da Cidian Chubanshe: Han yu da ci dian : ci mu yin xu suo yin

English [en], pdf, 141.6MB, Book (non-fiction), 10.1515_9780824897390.pdf
An Alphabetical Index to the Hanyu Da Cidian
University of Hawaii Press, ABC Chinese Dictionary Series; 11, 2023
Victor H. Mair

这个像是文字版?
搞下来看看
(不是文字,比较清晰的扫描版)



确定是同一种书。
这两个英文版扫描更清晰(尤其是141MB的最好)。

1 个赞

sxingbai兄用模糊的中文版音序索引做过baidu ocr。只有英文拼音可以比较准确地辨识。可惜那时不知道有更清晰的版本。

忽然之间,风云际会,资料都在短时间内出现了。

@sxingbai
清晰的《汉语大词典音序索引》出现了。上辞的词典重印本也出现了

现在就等这份文本能不能解开……

最好先把已经发现的光盘版没收词头,整理出来,免得重复劳动。
字词 页码 内容

QQ截图20240128160732
QQ截图20240128161534
QQ截图20240128162505
QQ截图20240128161943
110373

111286
110421

这几个,可能已经有人发现了,没查到文本。

𨊵	091234	同“軥1”
𨌈	091280	[tián 《广韵》徒年切,平先,定。]喜悦。参见“𨌈𨌈”。
【𨌈敐】		091280	 喜悦貌。唐皮日休<悼贾》:“既𨌈啟以召之兮,遂位之於上庠。”《清史稿·乐志六》:“普天祝嘏,𨌈𨌈敐敐。”
【𨌈𨌈】 	091280	喜悦貌。唐皮日休《鲁望昨以五百言见贻》诗:“日晏朝不罷,龍姿歡𨌈𨌈。”
𥿶	090813	同“緬”。远。唐樊宗师《绛守居园记>:“陴𥿶孤顛,跒倔,玄武踞。”岑仲勉集释:“師尹(趙師尹)疑緬,胡(胡世安)注:‘緬,遠也。’子特(張子特)云:‘言城遠向北山也。’”
𩙺	120710	同“翼”。《说文·飛部》:“𩙺,翄也。翼,篆文𩙺。”清龚自珍《尊隐》:“不𩙺而飛。”
𧫤	110373	[bì《集韵》壁吉切,入質,幫。]敬。《集韵·入質>:“𧫤,敬也。”亦作人名用字。《宋史·宗室世系表二>有赵希𧫤。
𧬄	110421	同“謝”。
𧬁	110421	[hào 《广韵》胡到切,去号,匣。]相欺。见《广韵·去号》。亦作人名用字。宋有赵崇𧬁。见《宋史·宗室世系表十》。
䜒	110421	[ào 《广韵》烏到切,去号,影。]语。《广雅·释诂一:“䜒,語也。”亦作人名用字。宋有赵与䜒。见《宋史·宗室世系表二》。
鋗	111286	同“鋗”。《太平御览》卷七五七引三国魏曹操《上献帝表》:“今上四石銅鋗四枚,五石銅鋗一枚。”又引晋束晳《贫家赋>:“執偏隳之漏鋗。” (注:鋗这个是兼容字U+2F9E8,不是 鋗U+92D7)

1 个赞

4.1版的文林数据库可以导出数据,4.3不行。

多谢告知!一石激起千层浪,楼主又成功引发一波重修汉大的热潮。

如果不能破解,用复制的笨办法行得通吗?

应该可以,不过我用软件打不开,你可以下载试试。