【9月18日更新】王力古汉语字典文字版

@sxingbai @okayer
我也覺得不合理,看得我手都癢了。
我的看法是跟書名連在一起的“某公”幾年,若出現在引號之前,該改。
(這類春秋、左傳、穀梁傳等等“某公”幾年,2,500多條。)

但夾在引號之中的,就不動它了。例如:
image

值得注意的是中華書局用的格式:
《漢書》:1397頁
image

1 Like

批量处理小心误伤其他,建议留到最后一步再决定,可以先发布几个版本稳定了再处理。

可以考虑给这些换个新的 html 标签,然后css去掉下划线。
总之清除 html 标签容易,后悔想加回来就麻烦了。

好主意。但幾輪正則寫得很specific,隨時能改回來。(另外,引號之間的特別案子只有幾個。)
<引證><書名>左傳</書名><專名> ([成宣襄昭桓僖莊文隱定閔哀])公</專名>([元一二三四五六七八九十]+年)

再說,大批替代,我都先用EmEditor “Extract replace”(這很有用),先試驗到底會影響什麼數據;不會盲目替代的。

3 Likes

正在做拼音索引,發現電子數據有錯誤:

image
image

3 Likes

老兄用心专一精益求精的治学态度值得学习!

1 Like

除了之前提到的 王力古汉语字典文字版 - 勘误 , 另外可能還要校對、修正的地方

簡繁混用、偽字、日本漢字、別字

黄 => 黃
宫 => 宮
户 => 戶
叠 => 疊
侣 => 侶
内 => 內
匀 => 勻
卧 => 臥
吴 => 吳
兑 => 兌
説 => 說
棁 => 梲
鋭 => 銳
横 => 橫
晋 => 晉
殻 => 殼
争 => 爭
浄 => 淨
静 => 靜
絶 => 絕
遥 => 遙
録 => 錄
緑 => 綠
禕衣 => 褘衣

重出

廿字重出
渝字重出
臯字重出
貨字重出,應分為貨和貸
踢字重出,應分為踼和踢
卻字重出,應分為郤和卻
嵒字重出,應分為嵒和喦
滋字重出,應分為滋和氵玆
痳字重出,應分為痲和痳
胄字重出,應分為冑和胄
鹼字重出,應分為䶨和鹼
抛字重出,應分為抛和拋
荆字重出,或分為荆和荊

4 Likes

多谢分享!
兄台提到的字,有些是原书分列的异体字,其实有些已是死字,用处不大,可以删了;有些应该是解码时形体过近造成;有些应该是原数据本来就有错误。
有您和@Mastameta的精心校对,是坛友的幸运。

1 Like

我就是做了一點比對而已,估計沒發現的錯誤還是不少,原始紙本和數字化錄入都可能有錯。一起期待過些天Mastameta放大招啦 :grinning_face_with_smiling_eyes:

解码不会有问题,更大可能是后者。铅印排版、數字化錄入都是有可能出错的环节,毕竟排版或录入的应该是多个人。更极端的,是所用的那个字体文件里头,该字的字符点阵错了(可能性不大)。

字頭重出而需要分辨和分開字條,有二十多。字頭方面的事,我在第一輪已經修了。

紙書有五個重複字頭:廿、缻、翍、蘤、㪷。區別在所歸的部首而已。在mdx,字條適合合併,像原來電子數據。

臯、荆、渝、艵:每組有兩個字形,但標準Unicode不能分辨(比如說,兩個“荆”字形佔同一個統漢碼),所以也合併了,我用特製TTF來分辨各組的不同字形。

字頭沒用那些字形。但適合顛倒而加跳轉。後者都是繁體輸入法會打出來的字。

2 Likes

臯 字不算重出,应是原书排印出错所致,归白部的那个字当为“皐”而非“臯”。查《正字通》便知。

重點是在Unicode,兩個字型佔同一個統漢碼:
image

你看走眼了。你再看看我给的两个字形。

我印象是紙書有兩個字頭用“自”部件而不用“白”。我回家再看看。

9.18版
可以排查一下duoyin项,有几个字被误合在了一起,如「貸」被合在「貨」里,「喦」和「嵒」误合在一起
PUA字头可以加个跳转,如「諍」
音韵如「照二」可以写成「照」,加个small标签
pua无对应字体mdd

王力字典把“臯”字歸“白”部而不歸“自”部,有點怪,但不意味字頭字形是錯的。《漢語大字典》引《正字通》,跟王力字典一樣,用““臯”(自”部件)而不是“皐”(“白”部件)。

“皐”(“白”部件)U+7690
“臯”(“自”部件)U+81EF
在電腦上,這個區分不成問題,不用講。問題是“自”部件的字又有兩種字形,王力字典分別當字頭:

image
image

我在 #191 樓說“標準Unicode不能分辨”,因為這組字形佔同一個碼位 (codepoint)。參考Unicode的規範字表:https://www.unicode.org/charts/PDF/U4E00.pdf
image

“G” 代表大陸跟新加坡字形。
“H” 代表香港。
“T” 代表台灣。
“K” 代表韓國。
這是“一碼多形”的問題:字典分辨而並陳,但Unicode只分配了一個碼位,電腦字型只能選和顯其中一個字形。

81EF,部件檢索(全宋體)顯示:image
中華書局顯示:image

任何一個字型都無法並陳兩個字形(除非一個字形另外掛在私有區碼位)。所以在原來電子數據,字頭看起來是重複的:
image

在這種情況下,一般的mdx做法是依賴私有區。我盡量不用私有區(字又難找又難打),所以兩個字條仍然合併,但保留了字典對字形的區分。

2 Likes

用《汉语大字典》这本不相干的书来佐证《王力》的字头问题还不如直接采用《王力》自身的引证来源。《王力》中两个字头不但分属不同部首而且直接给出了不同的书证来源。“白”头的字形照录《正字通》,而《正字通》正是以“皐”为字头,同样也划入“白”部,作法与《王力》一模一样。如果说《汉语大字典》也是援引《正字通》缺取字形“臯”,那只能说明《汉语大字典》有误。何以能以误证误?

2 Likes

若真如兄台所言为字头重出,为何一字型援引《正字通》,另一字型不见此书?


补上《正字通》书影