【已上传】《汉语大词典》2.0 光盘版 软件内提取数据

去看看官网,最低要求4.3​:grin:

tg群的是全系列整合安装包,198美刀的。

词典数据大概不会层层加码。
换个新格式就难倒一大批人了。
4.3应该就开始要绑定机器。

反正我没打开词典,安装是可以安装。
他这玩意儿操作太难受了,反人类,还卖死贵,好奇有多少人购买?:joy:

他既要绑机器码,那肯定留有后手,不会随便复制一个安装包就能用。要不然一个外壳也不用卖99刀了。

把我改过的一部分资料上载到这里,欢迎加入新版本。不过需要复核。

我改过的资料,多数是由方正版补例证,这种资料就很难抽出来。

这里的几十条资料,多数是光盘版缺的词头。

hanshare.zip (7.8 KB)

3 个赞

110373-2


110421-2

𧬤	110421	[zhòng 《字彙补》竹用切。]人名用字。<u>唐</u>有<u>李周𧬤</u>。见《新唐书·昭宗纪》。
𧪚	110373	[ái《集韵》魚開切,平咍,疑。] 谨。《玉篇·言部》:“𧪚,謹也。”亦作人名用字。《宋史·宗室世系表十七》有<u>赵必𧪚</u>。
𧪟	110373	[tà 《集韵》達合切,入合,定。]同“誻”。《集韵·入合》:“誻,亦作𧪟。”亦作人名用字。《新唐书·宗室世系表下》,有<u>修城郡公</u><u>𧪟</u>。
䛿	110373	[gé《集韵》各核切,入麥,見。] 慧。《广雅·释诂一》:“䛿,慧也。”亦作人名用字。《宋史·宗室世系表八》有<u>赵与諨</u>。
謜	110373	[yuán 《广韵》愚袁切,平元,疑。]见“謜謜”。
【謜謜】	110373	 形容说话和缓而连续不断。《说文·言部》:“謜,徐語也。从言,原聲。《孟子》:‘故謜謜而來。’”段玉裁注:“《萬章篇》文。<u>趙</u>曰:‘如流水之與源通。’據此,謜,本作源。源,古作原。蓋<u>許</u>引《孟》‘原原而來’,證從原會意之恉,淺人加之‘言’旁,如百穀艸木麗于地加‘艸’頭之比。”<u>明</u><u>赵南星</u>《李太公传》:“見人無親疏貴賤,皆與平揖,款款謜謜也。里中皆言<u>李太公</u>官大,能自挹損。”又《明故邠州学正王公暨配两赵孺人墓志铭》:“鄰邑士有冒籍入學者,諸生羣毆之,幾死,公謜謜開諭,莫不愧服。”
𧩼	110373	[zhǐ《广韵》陟里切,上止,知。]言。<广韵·上止>:“𧩼,言也。”亦作人名用字。《宋史·宗室世系表一》有<u>赵与識</u>。
𧪤	110373	[jiǎn 《集韵》九件切,上𤣗,見。]同“𧬯”。见《集韵·上𤣗》。亦作人名用字。<u>宋</u>有<u>赵崇𧪤</u>。见《宋史·宗室世系表十七》。

4 个赞

紫雪蓝海图像版的词头,我初步清理了一遍,把旧体字换成了新体字,补了一些漏掉的词头。后续清理还需要弄很久。考虑到各位现在要做新版,先把词头页码索引发出来,供大家参考。

imgdat.zip (1.7 MB)

我建议这个新版不要只做光盘数据。干脆把图像版的词头(加上新补的词头)都放进去。有内容的放进内容。没内容的词头注明待补,把这些词头单独做成一个文件,然后就可以慢慢补充内容。

3 个赞

多谢!少石兄是如何替换异体字的?

我是把旧体字替换为新体字。基本上是对照图像版和2.0光盘版词头。因为我把词头都导入了Access,所以可以对比出不同。对照图像确定后,一个字一个字批量替换。

那如果2.0光盘上没有的词头呢?我本来想从unicode官网的材料上想办法呢

少石兄,

我过滤后,还有8340条……还是挺多的

2.0光盘上没有的词头,其实只能对比图像发现。

Unicode资料中只有《汉语大字典》第一版的字头吧?第一版有两种不同字头,不同的人做的。没看到《汉语大词典》的材料。

把《汉语大词典》ocr了,词头抽取出来,用程式和已有词头对比,也许能有新发现。

不过单字可能只能一个一个对比。

把清单发出来?这书太大了,要改干净没那么容易。目前只能算是初步清理,后续还有许多工作。

有一些重复的词头是因为去除词头中的数字而产生的,为了方便检索,没有加上数字。

带Y的已经确认是书上有的,光盘没有的。
带X的表示字头跟书上不一样,属错的。

又删去了几百条异体字:禿窰柵牆頹。
剩下7970条,应该还有许多异体字。
[shaoshi上传的imgdat.txt|0130|attachment](184.3 KB)

坑 ,坑,坑 真大

2 个赞

需要一个一个对图像的麻烦字(异体字):

蹤迹敍雞鬥偽婿決鑑沈煙

不对无法知道用的是哪个字。

古典文學 @@@LINK=030022 =古典文学

啊,词头中罕见的简体字。

漏掉未改的旧字型

剎 = 刹 59个 (光盘页0671有一个“剎”单字须保留,但是图像版0671是新体字)

獎 = 奬 122个
按:“{將/犬}U+734E”不可用,当用“{將/大}U+596C”。

刪 = 删 61个 (页0634的单字“刪”真实存在不能改,所以只替换60个)

1 个赞

凜/凛
只有5条用凜:
凜|DCD020433
威凜凜|DCD050224
森凜|DCD041087
淒凜|DCD051358
謹凜|DCD110398
其他的都用“凛”。

啊,难以想象,这么简单的字,竟然大片错了。

喝–>渴
凡是在“051474”、“051475”的“喝”,都应该替换为“渴”。
喝乏 @@@LINK=051474
喝切 @@@LINK=051474
喝吻 @@@LINK=051474
喝塵 @@@LINK=051475
喝心生塵 @@@LINK=051474
喝念 @@@LINK=051474
喝悶 @@@LINK=051475
喝想 @@@LINK=051475
喝愛 @@@LINK=051475
喝慕 @@@LINK=051475
喝懷 @@@LINK=051475
喝日 @@@LINK=051474
喝暍 @@@LINK=051475
喝望 @@@LINK=051475
喝望梅 @@@LINK=051475
喝槃陁國 @@@LINK=051475
喝求 @@@LINK=051474
喝涸 @@@LINK=051475
喝澤 @@@LINK=051475
喝烏 @@@LINK=051475
喝病 @@@LINK=051475
喝盼 @@@LINK=051474
喝睡 @@@LINK=051475
喝睡漢 @@@LINK=051475
喝筆 @@@LINK=051475
喝而穿井 @@@LINK=051474
喝脗 @@@LINK=051475
喝葬 @@@LINK=051475
喝見 @@@LINK=051474
喝賞 @@@LINK=051475
喝賢 @@@LINK=051475
喝酒 @@@LINK=051475
喝雨 @@@LINK=051474

只有一个“罵”
罵|DCD120815
其他的“罵”都应替换为“駡”。
喝罵 @@@LINK=030417
喝神罵鬼 @@@LINK=030416

自立门户,另外开一帖吧:

《汉语大词典》图像版词头订正

3 个赞

这个汉语大词典2008页码收集.7z (902.9 KB),是什么来历?谁做的?

复词比紫雪蓝海的旧本完善,大致看了一下,许多错字、异体字改了。

只是新发现缺的单字,仍旧缺。

主要来自:iefm83 漢語大詞典2.0,这个论坛有。还有 石头 发的一份他现用的 汉大。
大体上来说,页码还是挺可以的。当然错误还是有的,用了几天,就遇到一个错误。

多字词我没对照。看单字错误很多,扩充B全没有。