unicode和《汉语大字典》处理的就有瑕疵,两个字明明不同,却硬被当成了同一个字。此外要是按照电脑上的字体字形,二字应当调换一下才好。
兄台火眼金睛,能看出二字电脑字形不同,不胜佩服。或者兄台所用者乃高级字型?
Unicode乃国际标准,参与制定者亦有中国专家。标准既然定了,就按照标准做吧。
不按标准行事,各做各的,就乱了套。
又:兄台讨论学术,无干政治等敏感话题,何须匿名发言?
兄台所引之书与Unicode冲突,不足为据,
你在用佛大的那个MDICT版本吧。
我拆开看了一下,字头数60232。
发现几个异常
X X:第9个字<br>.png">
X X:第18个字<br>.png">
X X:第13个字<br>.png">
X X:个字<br>.png">
挰 挰:个字<br>.png">
𢍫 𢍫:个字<br>.png">
𫛮 𫛮:个字<br>.png">
𪂟 𪂟:第19个字<br><img src="4942.png">
鵜 鵜(鹈):第20个字<br> <img src="4942.png">
不知是否已经发现?
我下载的三个图像版一个都没用,就用了紫雪蓝海的旧索引,在Access里看文件夹里的图像。
还有我导入Access的《汉语大字典》文本版。
三个图像版的字头你都研究了?有差别吗?
差别太大了。
想对比,难度大。
就是佛大的两个版本,有unicode编码的,都不一个样。一个是55786,另一个却有56200
你是把主字头和跳转一起算吧?要不然不可能差这么多。
把跳转先筛掉,单比对主字头。
不是的。去掉跳转字的。去掉那些X或者是PUA
字头最多是那个切边版,56206+795跳转字,这里面都是没有PUA的。
佛大的那个版本,是从【漢語大字典(第2版)20160613大更新】修改过来的。
那个切边版,很可能就是紫雪藍海制作的。因为我从mdx的info找到这句话:
漢語大字典(第二版)by 紫雪藍海(2016年05月29日)
这样啊!那我也许应该研究一下这个切边版。
《汉语大字典检字》
〖U+9094〗邔:第七卷第4003页第7字。
〖U+2866C〗𨙬:第七卷第4003页第8字。
第4003页第7字是“〖U+9094〗邔”吗?这个字:{巳阝},是U+30EE0。叶典:《汉语大字典2》第4003页第7字。两分法查字:{巳阝}。
叶典认为“〖U+9094〗邔”、“〖U+2866C〗𨙬”是同字。“〖U+9094〗邔”是Gbk,容易检索,《汉语大字典》文本用这个字是对的。但是应该补上U+30EE0{巳阝}字的解释。
〖U+21E13〗𡸓
〖U+21E9B〗𡺛
两字同字,其他数据库多数用后一字,用后字比较合适,前字可以做跳转。
〖U+22BF1〗𢯱
〖U+2F8BE〗𢯱
看字形确是后一字,但二字同字,其他词典多用前字。后字不用特殊字型则无法显示。故我宁可用前字,至少可见。
〖U+23D6D〗𣵭(叶典:部首余笔:水7。《汉语大字典2》第1733页第5字。两分法查字:{氵王}。《汉语大字典2》第1733页第5字。)
〖U+23CEB〗𣳫(叶典:部首余笔:水6。《汉语大字典2》第1753页第8字。两分法查字:{氵土}。《汉语大字典2》第1753页第8字。)
由笔画来看,叶典二字的《汉语大字典》页码需要对调。页码在前的字笔画一定较少。
我原先给《汉语大字典文本》做的页码错了。“〖U+23D6D〗𣵭”应该在::\elibocr\zidian\zd03\1753.tif。
《汉语大字典检字》(这个也乱了)
〖U+23CEB〗𣳫:𣳫|𣳫:第三卷第1733页第5字。
〖U+23CEB〗𣳫:X|X:第三卷第1753页第8字。
两个字来来去去看了半天,先改正叶典的错误,再改正其他两个资料的错误。还好有笔画,不然就完全晕了。
还是Unicode内的《汉大1检字》资料可靠,幸好有一个可靠的资料做定位。但这个资料有不少不存在的虚拟字页码。
〖U+250F3〗𥃳
〖U+2F941〗𥃳
从字形看,应该用后字。二字是同字。《中文大辞典》图像版二字都收,但其电脑字头索引只有前字。《汉语大字典》图像版只收后字,其电脑索引用前字。多数资料库用前字,后字没特别字型无法显示。我从众,继续用前字,后字加跳转,
10
〖U+2668B〗𦚋 (大陆用字)
〖U+26288〗𦊈 (台湾用字)
大陆人多,从众。用前字,后字做跳转。
11
〖U+27144〗𧅄
〖U+8641〗虁
《汉语大字典文本版》及多数资料库用上字,细看字形也是上字。《汉大检字》用下字,应改。
昨晚我弄到一个文件。
里面收录了,58286字U编字头,可惜没有页码。
这可能是收录最多 的。
我整理一下,和手头的表对比一下。
提取了无重字头58051条,含重复字头326条。无页码字头74条。
没有页码,无法复核,不知道是否正确,就没什么用。
我从佛爷的叶典m-diict中用程式提取了《汉语大字典》的索引,改了一两条。
U+ 58230
包括非U+ 60319
没核对,整理时也许有差错,没检查,供参考。
ye-han.rar (1.1 MB)
你这个表,有72个不在我的表中。
其中一个错误。
第15页第5字 ,应该是㐀。
这大概是用程序处理资料时出的错。我导入资料库的叶典就是“㐀”字。
〖U+3400〗㐀
27247 | 懡 | P2532 | 15 | 𢣗 |
---|---|---|---|---|
14707 | 槩 | P1347 | 2 | 㮣 |
41092 | 緐 | P3630 | 9 | 䋣 |
54811 | 𠳕 | P4797 | (本页无此字头) | |
6179 | 𡰜 | P0602 | 21 | 𡰔 |
4486 | 𣀢 | P0437 | 14 | 燮 |
23353 | 𣍨 | P2210 | 1 | 𦙳 |
23340 | 𦊈 | P2209 | 6 | 𦚋 |
32774 | 𦓃 | P2974 | 6 | 𦓆(经放大图片对比,U+264c6为正确。) |
23535 | 𦛩 | P2228 | 14 | 㬶 |
39251 | 𦹼 | P3482 | 9 | 𮐓 |
34304 | 𧑛 | P3095 | 4 | 蟰 |
52404 | 𩌸 | P4635 | 7 | 𩌶 |
53062 | 𩖎 | P4686 | 3 | 𩖉 |
57721 | 𪅏 | P4968 | 11 | 𪆪(经放大图片对比,U+2A1AA正确) |
52723 | 𬱡 | P4659 | 8 | 𩒜 |
20334 | 瀛 | P1918 | 7 | 瀛 |
44246 | 㒻 | P3907 | 6 | 㒻 |
456 | 𰃣 | P0053 | 9 | (应为𰃤字少一横) |
49492 | 𰿷 | P4391 | 7 | 𰿸 |
48074 | 響 | P4273 | 11 | 𧬰(𧬰響都不正确,相比之下,我建议用𧬰) |
㮝U+3b9d、㮝U+fad2,用㮝U+3b9d。
秊U+f995、秊U+79ca,用秊U+79ca。
72个不在我的表中,其实大多数是字形不同。我修改的大多数的私用字,但也改了几个明显错误。
〖U+20CD5〗𠳕
《汉语方言大词典》4797页。两分法查字:{口抄}。
这条叶典引的是《汉语方言大词典》,我用程式处理,考虑不周,误收了。
?我没发现你提及的错误。
上次更新是20220812。
还有一两百处 义未详 待校正。
这书本身问题比较多。MDX也是问题多多。
笔画数问题,不重要,目前无修改打算。
90年代的新华词典Ver.1.1无需联网一直用 - 『福利经验』 - 吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn
国际标准汉字大字典有升级版,可是网上到处找不到软件,此吾爱破解的文章链接也失效了。
这本新版很惊艳,释义数量特别多,堪比汉语大字典。
《国际标准汉字大字典》似乎应该是中易那边搞的,这家看起来不是官方,只是开发过软件而已。