okayer
187
除了之前提到的 王力古汉语字典文字版 - 勘误 , 另外可能還要校對、修正的地方
簡繁混用、偽字、日本漢字、別字
黄 => 黃
宫 => 宮
户 => 戶
叠 => 疊
侣 => 侶
内 => 內
匀 => 勻
卧 => 臥
吴 => 吳
兑 => 兌
説 => 說
棁 => 梲
鋭 => 銳
横 => 橫
晋 => 晉
殻 => 殼
争 => 爭
浄 => 淨
静 => 靜
絶 => 絕
遥 => 遙
録 => 錄
緑 => 綠
禕衣 => 褘衣
重出
廿字重出
渝字重出
臯字重出
貨字重出,應分為貨和貸
踢字重出,應分為踼和踢
卻字重出,應分為郤和卻
嵒字重出,應分為嵒和喦
滋字重出,應分為滋和氵玆
痳字重出,應分為痲和痳
胄字重出,應分為冑和胄
鹼字重出,應分為䶨和鹼
抛字重出,應分為抛和拋
荆字重出,或分為荆和荊
4 个赞
多谢分享!
兄台提到的字,有些是原书分列的异体字,其实有些已是死字,用处不大,可以删了;有些应该是解码时形体过近造成;有些应该是原数据本来就有错误。
有您和@Mastameta的精心校对,是坛友的幸运。
1 个赞
okayer
189
我就是做了一點比對而已,估計沒發現的錯誤還是不少,原始紙本和數字化錄入都可能有錯。一起期待過些天Mastameta放大招啦
解码不会有问题,更大可能是后者。铅印排版、數字化錄入都是有可能出错的环节,毕竟排版或录入的应该是多个人。更极端的,是所用的那个字体文件里头,该字的字符点阵错了(可能性不大)。
字頭重出而需要分辨和分開字條,有二十多。字頭方面的事,我在第一輪已經修了。
紙書有五個重複字頭:廿、缻、翍、蘤、㪷。區別在所歸的部首而已。在mdx,字條適合合併,像原來電子數據。
臯、荆、渝、艵:每組有兩個字形,但標準Unicode不能分辨(比如說,兩個“荆”字形佔同一個統漢碼),所以也合併了,我用特製TTF來分辨各組的不同字形。
字頭沒用那些字形。但適合顛倒而加跳轉。後者都是繁體輸入法會打出來的字。
2 个赞
Aaron
192
臯 字不算重出,应是原书排印出错所致,归白部的那个字当为“皐”而非“臯”。查《正字通》便知。
我印象是紙書有兩個字頭用“自”部件而不用“白”。我回家再看看。
feiwu
198
9.18版
可以排查一下duoyin项,有几个字被误合在了一起,如「貸」被合在「貨」里,「喦」和「嵒」误合在一起
PUA字头可以加个跳转,如「諍」
音韵如「照二」可以写成「照二」,加个small标签
pua无对应字体mdd
王力字典把“臯”字歸“白”部而不歸“自”部,有點怪,但不意味字頭字形是錯的。《漢語大字典》引《正字通》,跟王力字典一樣,用““臯”(自”部件)而不是“皐”(“白”部件)。
“皐”(“白”部件)U+7690
“臯”(“自”部件)U+81EF
在電腦上,這個區分不成問題,不用講。問題是“自”部件的字又有兩種字形,王力字典分別當字頭:
我在 #191 樓說“標準Unicode不能分辨”,因為這組字形佔同一個碼位 (codepoint)。參考Unicode的規範字表:https://www.unicode.org/charts/PDF/U4E00.pdf
“G” 代表大陸跟新加坡字形。
“H” 代表香港。
“T” 代表台灣。
“K” 代表韓國。
這是“一碼多形”的問題:字典分辨而並陳,但Unicode只分配了一個碼位,電腦字型只能選和顯其中一個字形。
81EF,部件檢索(全宋體)顯示:
中華書局顯示:
任何一個字型都無法並陳兩個字形(除非一個字形另外掛在私有區碼位)。所以在原來電子數據,字頭看起來是重複的:
在這種情況下,一般的mdx做法是依賴私有區。我盡量不用私有區(字又難找又難打),所以兩個字條仍然合併,但保留了字典對字形的區分。
3 个赞
Aaron
200
用《汉语大字典》这本不相干的书来佐证《王力》的字头问题还不如直接采用《王力》自身的引证来源。《王力》中两个字头不但分属不同部首而且直接给出了不同的书证来源。“白”头的字形照录《正字通》,而《正字通》正是以“皐”为字头,同样也划入“白”部,作法与《王力》一模一样。如果说《汉语大字典》也是援引《正字通》缺取字形“臯”,那只能说明《汉语大字典》有误。何以能以误证误?
2 个赞
Aaron
201
若真如兄台所言为字头重出,为何一字型援引《正字通》,另一字型不见此书?
1 个赞
所謂“字頭重出”,有兩個角度:一個在紙書字典,字形是否分辨;另外是在電腦字型(font),字形是否能夠分辨。
Aaron
204
臯、皐 二字均有编码,字形各异,怎会分辨不出呢?说到底,兄台还是泥于纸书上显示的“一码二形”之别,而不愿相信是编者错置字头。
feiwu
205
王力这本校对有不少问题,如「袡」作「礻」旁,「䁝」无「冖」,「䶨(9.18版误作「鹼」)」下引《王孙赋》与「𤿐(⿰开皮)」引文不同,「㐺」有两种字形,一种「㐺」,一种「𰁧(⿰亻从)」,按理说,一个人的作品不应该出现两种标准,何况是字典这种工具书。
个人看法,“ 皋”“皐”“臯“,这三个字一般都能显示,分开较好。“白”“自”分清,下面是两横还是点提就不用管它了吧。