《汉语大词典》电子版订正讨论

请问方正本在哪里?

好像是在这里看到的。时间太久,我也记不清楚了。

菲菲 釋義4 缺例句?

光盘2只收GBK编码,正如光盘3只收Big5编码,编码没有的资料都扔掉了。

这个例子有一个GBK没有的字,所以被扔掉了。碰到这种情况,方正版似乎都补充了。

《文选·左思<吴都赋>》:“鬱兮𦲮茂,曄兮菲菲。”张铣注:“菲菲,美貌。”

1 个赞

感恩!

看來只能期待新版,讓unicode把編碼的歷史問題消滅了。

找到了,谢谢。

20-2-2023

由方正版复制而替换错误的词

“㗳”(U+35F3)误为“𪢑”(U+2A891)
𪢑–>㗳
嘘𪢑–>嘘㗳
叭𪢑–>叭㗳
“𪢑”(U+2A891)太冷门了,“㗳”(U+35F3)太多,一个一个看不胜其烦,可以一概替换。
“㗳2”的注音错了,是dā,不是tǎ。

重出的多余数据

【不贕】
<!><hr>20不费吹灰之力21``24补证条目26<p>形容办事非常容易。
按:“不费吹灰之力”数据为“不費吹灰之力”数据因词头简化而重出,误入于【不贕】条下,当删。

句子中的词语被错误截断而误加链接

一切经音义
一切经音义》
按:这显然没意义。“一切”哪需要解释?假如要链接,应该链接“一切经”。这种加链接的词显然是用程式自动加的,有些不是词语的词被加了链接,有些超级简单的词也被加了链接。

《游峡山寺记》

妨碍在Emeditor里查找,徒然增加烦扰。除非真是难词需要带链接方便查找,否则这种链接看到就删。

【岡㝗】
犹康㝗。
按:“康㝗”当据图像本改为“㝩㝗”。

25-2-2023

【㩳】
光盘2.0mdx本条竟然全搬《汉语大字典》的资料。但是《汉语大词典》是有“㩳”的资料的。feiwu兄的“汉语大词典复刻”补了“㩳”、“㩳身”、“㩳㩳”的真实《汉语大词典》资料。“汉语大词典复刻”不只是原始光盘资料,是有补充新资料的,有参考价值。

看来光盘2.0mdx有不少来历不明的资料。这种资料,假如《汉语大词典》自己有,应该删除“伪《汉语大词典》”资料,补上真实资料。假如《汉语大词典》没有,要保留,应该加个校记。但是太多了,也未必能看到,只好由它去了。不过必须意识到:光盘2.0mdx的《汉语大词典》,不是纯《汉语大词典》,是《汉语大词典》+若干来历不明的资料,必须对照图像版才能引用。凡是图像版没有的,都是“伪《汉语大词典》”资料

【岝崿】
这个词条的三个“亦作”都不见了:亦作“岞崿”、“岝㟧”、“岝㠋”。

【𡆩】
九影各有---->九影各有名

【哲陳部】
图像版注音:(陳chéng)
按:“陳”无chéng音,当音chén,图像版注音误。

《中国少数民族文化大辞典·东北、内蒙古地区卷》
哲陈部 zhé chén bù
满族先世,建州女真诸部之一。地处辽宁省新宾县南朵木和抚顺县营盘到清源县一带。主要从事农业,兼事采集、狩猎和畜养业。

盤𥁡、𨚴、䴥——重出
疙瘩——缺例句

1 个赞

原版确实如此:

盤𥁡pán wū
盤𥁡pán bó

𨚴rú
𨚴rú

䴥jiā
䴥jiā

我自己的版本已经删了。

“疙瘩”的情况是这样的:

1.图像版用的是“疙𤺥”,有例句,“疙瘩”是异体词,只说见“疙𤺥”。

2.光盘本来用“疙瘩”,省略了例句。

3.光盘mdx补上了“疙𤺥”,有例句,但是没改“疙瘩”下的无例句资料。

1-3-2023

【𡶭嵃】
𠵣𠵣輵𡽖
按:“𠵣𠵣”当作“𡸗𡶐”。
方正版:“輵𡽖”。此“”当作“𡸗𡶐”。词头【】则当作“𠵣𠵣”。【嵑】当作“嵑㞹”。

【崣𡻣】
“𤯕焉㠕㠕”
按:“𤯕”当作“䘏”。

1 个赞

“疙瘩”确实如此。眼花了 :joy_cat:

同样的情况还有:凶終隙末、凶終𨻶末。

图像本实作“凶終𨻶末”。

1 个赞

11-3-2023

【岝崿】
迅衡風而突飛電
按:“衡風”当作“衝風”。

【蘢葱】
葱笼。
按:“葱笼”当作“葱茏”。
葱笼。浓密;浓厚。
按:“葱笼。”当删除。
【瑞木】
佳木葱笼
按:“葱笼”当作“葱茏”。
【清曠】
草树葱笼
按:此条图像版确为“葱笼”。

【三九】【庾郎】【庾鮭】
与图像版相比,皆少“𤅢韮”二字。

【幽㬆】 yōumǐn
“㬆”之注音唯有min3一音,然“幽昏”条言亦作“幽㬆”,则当同音。

【述蕩】
旌象之約
“旌象”当作“旄象”,参看“旄象”条。

【束緼】
亦作“束蕰”。
“蕰”当作“藴”。

【椶䰕】
亦作“䰕”
“”当作“㯶”,这是从方正版带过来的私用区字。

【穓】
光盘2.0版mdx大概根据图像索引版定位在第4卷1276页,但此页的字其实是“𣚣”(U+236A3)。光盘2.0版没有“𣚣”字,但方正版是有的。

【𣚣】
当据方正版补此条。
图像版引文《吕氏春秋·为欲》之断句当改为:“疾庸𣚣,爲煩辱,不敢休矣。”

【庸穓】
此条之“穓”皆当作“𣚣”。
图像版“庸穓”条有例证无解释,言:同“庸耕”。但是没有“庸耕”条,当补“庸耕”。

【䐑】
《齐民要术·作𦞤奥槽苞》有“犬䐑”、“包䐑”
按:“包䐑”当作“苞䐑”。《齐民要术》卷9《食经曰作犬䐑法》、《食次曰苞䐑法》。

【收𤯕】
当作“收䘏”。“䘏”(U+460F)注音当由xìnɡ改为xù。

【救𤯕】【簡𤯕】【給𤯕】【賻𤯕】【追𤯕】
“𤯕”皆当作“䘏”。“䘏”(U+460F)注音当由xìnɡ改为xù。

【餽𤯕】
“𤯕”当作“䘏”,然已有【餽䘏】条,故此条当删除。

【日𣅳】
“𣅳”U+23173 光盘2、索引,见图像页543右。
词头“𣅳”当作“𣅔”(U+23154)。这个不容易发现,因为feiwu兄的《复刻》版改了,对照之下,才发现有问题。

【景𣅳】【西𣅳】
词头“𣅳”当作“𣅔”(U+23154)。图像索引版“西𣅔”误作“西昊”。

【判渙】【判涣】
重出,当改【判渙】词头及内文之“渙”而删【判涣】。

发音不宜乱订正,各地审音各是各的审法,如果不是OCR错误,保留原貌即可。而且出书时代各不同,发音不同也很正常

1 个赞

首先,我不同意“乱订正”的说法。我改的主要是mdx的电脑自动注音。这本来就错得一塌糊涂。大概也改不完,看到多少改多少。怎么改,主要还是在《汉语大词典》中找根据。

其次,《汉语大词典》本身注音的地方就少,偶尔有和《现汉》不一样的地方,我跟《现汉》,但是一定出校记,不偷偷改。假如我发布了我改的mdx,用者可以看校记,决定是否跟原来的音。

我都没说我会发布,假如发布,也不知道何年何月可以做到能发布的程度。基本上这是做来自己用的。

我最终的目的是希望做个独立的音序索引。假如不用《现汉》的音,这个音序索引就会很难用。

1 个赞

不用说出来,说出来就没几个人想帮你了。自私与无私不断博弈,不断共生,此消彼长,循环往复。

我想法是,汉大不是现汉大,出现汉索引可以有,但不宜改原。硬注可分“原、今”。保留历史呈现。哪怕谬误,另定的以汉大-MDX修订存版即可。

20-3-2023

一、汨、汩难分出问题。

【卉汨】
“卉汨”当作“卉汩”。其音为yu4,义为“疾速貌”,则当为“汩”,不得为“汨”。检《汉书》原文,有的版本作“汩”,有的作“汨”。此既为《汉大》所引《汉书》版本之误,则不可改。参看“汩2”、“戫汩”。
《汉大》第二版宜引《汉书》善本改正此条。

【卉汨】【卉汩】内容相同。前者为《汉语大词典》原来的字头,看来是《汉书》之误,然当加校记,不可另出一内容相同的词头。【卉汨】条当加校记,【卉汩】条应删去内容,仅言“见‘卉汨’”。
图像版索引作【卉汩】,亦当改为【卉汨】。

【汩振】
或汨振
例证“汨振”当作“汩振”。

二、有“郎”字的词条问题多多。

1.【將仕郎】
本条为原始光盘资料,第2义项为第1义项之重复。此条当删。

【將仕郞】
本条为方正版资料。“郞”用了旧字形,“职宫”当作“职官”。第一例证与第二例证当对调。保留此条。

2.【門下侍郎】
本条为原始光盘资料,第2义项为第1义项之重复。此条当删。

【門下侍郞】
本条为方正版资料。“郞”用了旧字形,改为新字形“郎”即可,保留此条。

3.【門郎】
本条为原始光盘资料,第2义项为第1义项之重复。此条当删。

【門郞】
本条为方正版资料。“郞”用了旧字形,改为新字形“郎”即可,保留此条。

4.【顧曲周郎】
本条为原始光盘资料,第3义项为第1义项之重复。第4义项为第2义项之重复。此条当删。不过在删之前,把这4字复制到下条:参见“顧曲”。

【顧曲周郞】
本条为方正版资料。“郞”用了旧字形,改为新字形“郎”即可,保留此条。从上条补这4字:参见“顧曲”。

光盘3不是没有优点,这条完胜光盘2,一点问题也没有。

此外,馬郞、馬郞婦、馬郞房、馬郞黨、馮郞、驄馬郞、魚郞、鸞臺侍郞、黄郞子、黄頭郞、黑衣郞、黑面郞、點籌郞、齋郞。
都有两条,依此类推,懒得写了。

三、“晩”(U+6669,旧字形)与“晚”(U+665A,新字形)大混杂

含有“晩”(U+6669,旧字形)与“晚”(U+665A,新字形)的词条同时存在。必须删除含有“晩”(U+6669,旧字形)的词条。有两百多条。
可以在Emeditor中检索“晩”(U+6669,旧字形),看到上方有另一相同数据而未被选中,就可以删除被选中的词条。
复核资料,可以看出有“晩”(U+6669,旧字形)的,是方正版的数据,数据排序与图像版不合。由于整理者用程式改动而未校对,“傍晩”一条数据还重复了。
但是有时旧字形的数据比较好,所以应该取之而改字,例如“多早晚”条。所以得一条一条看一下。

四、其他

【颼䬟】
亦作䬟。
“䬟”当作“䬒䬟”。

【分燠嘘寒】(嘘–新字形,U+5618)
【分燠噓寒】(噓–旧字形,U+5653) 此条当删除。

【準】
第5义项:賈公顏疏
“賈公顏”当作“賈公彦”。

【稍黷筐篚】
此令之慚
“此令之慚”当作“此令大慚”。

2 个赞

20-3-2023

光盘2mdx有一个特点:旧字形的字下可能吸附不少前部相同的补遗词条。

例如:【眞】下吸附了【眞人不露相】、【眞實】等5条。这5条中的“眞”应该替换为“真”,然后散入各条下。

这些属于《汉语大词典增补》的资料,都使用compact html,每条开头为<!>,结尾为6`。

通常只有一条的没问题,两条或两条以上在一起的有问题。

用Emeditor检索“6`\n<!>”(正则表达式),可以找到两条并列的问题词条。

太多,不备举,只举例。

【縱横馳驟】下有4条错置资料。

【胡語】下有2条错置资料。

【遙】下有4条错置资料。

【靑】下有10条错置资料。

【內】下有错置资料。

【別】下有错置资料。

【却】下有错置资料。

【对】下有错置资料。

【強】下有错置资料。

【沒】下有错置资料。

【爭】下有错置资料。

【燈籠錦】
订补词条第2条重复原有资料,当删。“燈紅酒绿”资料错置。

【炸鍋】
部分资料重出。

1 个赞

26-3-2023

【一骨辣】
同“一股那”。
按:图像版言:同“一股腦”。然无“一股腦”条,当言:同“一股腦兒”。

【騕𩦫】
这个词头的内容是【騕𮕹(U+2E579)】的内容,所以应把词头改为【騕𮕹(U+2E579)】。另外补上【騕𩦫】一条的内容。

【呫3】
词头用了私用区字,当改为“呫{田畢}”。按:“呫{田畢}”图像索引及《订补》有,然图像版无此条。{田畢}与“𤳣”(U+24CE3)字形不同。

【瞁𱳒】
周邦彦《汴都赋》:“瞁{目廓}而不敢進。”
《康熙字典》、《汉语大字典》“瞁”条引《汴都赋》,《全宋文》128-216《汴都赋》,皆作“瞁䁨”。
“䁨”下言见“瞁䁨”,然实无“瞁䁨”条。疑【瞁𱳒】当作【瞁䁨】。
《汉语大词典》第2版宜用“瞁䁨”做词头,注明或作“瞁𱳒”(假设“瞁𱳒”不是错字,真有一个版本作“瞁𱳒”)。
图像版索引出“瞁𱳒”、“瞁䁨”二条,皆指向DCD071237。“瞁䁨”可以保留,但应指向“瞁𱳒”。该页实仅有“瞁𱳒”。要给某个词做异体字词条,无妨,但这类词条应该与一般词条有区别,不可相混。

【石𪼿】
词头当作“石𭺩”。

【減卻】
亦作“減却”。亦作“减卻”。
“减卻”当作“减却”。《汉语大词典》选这两个“亦作”的词,是因为例句用到。光盘版对“亦作”的词不太注意,常常和原书不一样。
这种“亦作”,纸版大概为了节省篇幅,没有完全另出词条,但是电子版不必顾虑篇幅,应该尽量另出词头,方便检索。

【閒言】
〖注音〗jiànyán
亦作“間言”。亦作“閑言”。
按:当据图像版删“亦作閑言”。

【閒4言】
〖注音〗xiányán
亦作“間言”。亦作“閑言”。
按:当据图像版删“亦作間言”。

閒語 jiànyǔ
亦作“間語”。亦作“閑語”。
按:当据图像版删去“亦作”资料。无“亦作”。

閒2語 jiānyǔ
亦作“間語”。亦作“閑語”。
图像版仅言:亦作“間語”。

閒4語 xiányǔ
亦作“間語”。亦作“閑語”。
图像版仅言:亦作“閑語”。

【教法】
傅持風流教法
“傅持”当据图像版改为“傳持”。

【黻】
豈非刺目弓相沿之誤
“刺目”当作“兩”。

【饞扠】
老夫不覺攘臂舉饞扚
饞扚飽活臠
按:“饞扚”当作“饞扠”。这是方正版带过来的错误。因为搞成“扚”,自动注音就误注为“dí”。释义和例证的顺序也打乱了,这是方正版的特点。

2 个赞