【文字版】辞源(第三版)

我也在修理文字版的數據。闕文補上之後,我會分享MDX。

如果你也要改你自己的版本的話,我留了些筆記:

“囓” 字條,有簡體的“结”。有些地方有簡體的“ 词”。
有些地方出現錯誤的“3犂”。
嶔巇屹𡿖 內容缺引號。
三國志 魏 鄭渾傳 缺“:”

這個詞條 應該刪掉:

𩣚呆
@@@LINK=𩣚騃
</>

“𩣚呆” 不是辭源的詞頭,也不是“𩣚騃”的異體寫法、或是簡化寫法。

注音符號不統一,也不規範:
replace ` with ˋ
replace · with ˙
replace ' with ˊ
replace 一 with ㄧ (第一個是數字的一;第二個是注音的ㄧ)。這要糾正才能讓注音的“ㄧ”豎起來,像辭源印刷版一樣。

“㩳” 字條的注音用“” image (U+E205; 屬於Private Use Area),是辭源專做定制的“ㄙ”符號;印刷版是用這個符號。在文字版數據裡,只出現一次;只有FZCiyuanSong字體能夠顯示出來。要嘛把所有的“ㄙ”改成“”(這個符號卻是更清楚);要嘛把“”改成標準統一碼的“ㄙ”。

標點符號,有的 用half-width(半角);有的 用full-width(全角)。不規範。
,,
??
!!
;;
:“:“
括號()()也不統一,可是這不能隨便全面轉換—也許本來就同時用兩種括號。我不確定。再說,雖然印刷版大多(或是全)用全角,半角括號在引證裡顯得更耐看—全角太佔空間了。

引證裡,有不少地方“—”(em dash)應當是“一”(數字)。只不過,看語境,甚至參考圖像板,也很難完全確定。

5 个赞

顶起,大家一起找bug

1 个赞

我發現文字版有個詞條居然沒出現在印刷版:“市日”。
也許文字版是未出版的修訂版。

文字版有兩個“𤿐”headword。第二個漏掉了字,應當是“𤿐𮍩”。

我跟切圖版比對了一下,切圖版用的字體稍微不同,所以有些詞頭有差距,實際上釋文是一樣的。

文字版漏掉的詞有436左右:
辭源文字版所缺的詞 436.zip (2.4 KB)

下面是兩個版本的所有的詞頭:
切圖版、文字版 詞頭.txt (2.6 MB)

5 个赞

厉害!!印刷版确实少这个词。还有别的吗?

我跟登徒浪子的切圖版做了詳細的對照,只發現這一個案子。若果切圖版的‘索引’是完整的話,這是唯一的例子。

另外,文字版偶爾會把兩個印刷版的釋文湊在一起。比方說,印刷版把“朐”字分別列在1955頁和3373頁;文字版把這兩個幷成一個字條。

“童蒙”詞條:
“易 GAFC8:“匪我求童GAFC8” = “易 𫎇:“匪我求童𫎇”

鹿藿:
“蔨GF9AB,鹿𧆑,其實莥” = “蔨,鹿𧆑,其實莥”

𬞱
目目眥傷赤也 = 目眥傷赤也

標榜:
“遂共相摽NF8DB” = “遂共相摽搒”

火雞:
“好吃GF8D0炭” = “好吃𭴓炭”

獵攦:
“魻GAFC9參差” = “魻𫙢參差”


統一碼 私用區

毫:
説文作“GF9C9” = "説文作“(𩫕)”

㲉:
”收縘GF8FA於牣㸦” = “收縘於牣㸦”

取青妃白:
妃一本又作“GAFF6” = 妃一本又作“”。

封龍山碑:
“蔡GF8BC等修祠祀” = “蔡等修祠祀”

禼:
本作“禼” = 本作“”

“疏”字條,第十四釋文:
“窗。説文作“GF8DD。” = “窗。説文作“。”

「給」字的解釋,只列出發 ji 音的部份,少了發gei 等音的部份。

我覺得辭源這樣做是有根據的。「給」字在中古反切,只有一個發音: 居立切。

image

參考“Middle Chinese(中古中文)”和“Old Chinese (上古中文)”

再說,原來是入聲的字,轉成普通話就怪怪的。不管是 “ji” 還是 “gei”,已經跟"kip"或是"kəp"分離了。

3 个赞

印版的錯誤:
䔋:同“莎㊁”→同“莎㊀”
颺:四角號4498₂→7612₂

辭源有些古音的錯誤。最明顯的是把“蕩”字當做去聲,雖然“蕩”字本身是個代表上聲的韻目!不僅是數據的問題;印版也寫錯了。

我發現印版有這些錯誤:

蕩1:去聲→上聲
稷2:去聲→入聲
佒:平聲→上聲
垕:去聲→上聲
孝:効韻→效韻
滁:上聲→平聲
籥:去聲→入聲
腫:去聲→上聲
覵:上聲→去聲
鼫:去聲→上聲
𣡌:上聲→入聲

䋶:虞韻→麌韻
甒:虞韻→麌韻
瘶:侯聲→候韻
鸌:暮韻→鐸韻,影。又集韻胡故切,去,暮韻,匣。
它2:麻韻→歌韻
輵3:黠韻→鎋韻

入:入執切→人執切
㱂:罔切→岡切
潺:士連切→士連切,又士山切
瞯:萈切→莧切
窢:忽蜮切→忽域切
筇:渠榮切→渠容切
虩:許卻切→許郤切
遯:徙困切→徒困切
靡:糜爲切→靡爲切
漚1:侯切,侯韻→候切,候韻
飾1:識切→職切
𣪠1:繫切→擊切
尨2:逢切→蓬切
崥2:並弭切→并弭切
率2:戍切→戌切
䓼2:hè。古今韻會舉要黑角切→hòu。呼漏切,去,候韻,曉。又許角切。
砏2:卜巾切→府巾切
揭3:丘謁切→丘竭切
懊4:鳥晧切→烏晧切
解4:去聲→上,蟹韻,匣。又胡懈切,去,卦韻。

2 个赞

大赞,太牛了,疑似错误再去核实,需要做学问的工夫

韻目包含聲調的內容 – 我只不過把字條裡的韻目,跟聲調和反切對比了一下,其間出現矛盾就知道數據有問題。

我做這些,目的是想做出可以點上字條的先秦韻部和中古韻目,連接到所有跟他押韻的字。

先秦韻部索引已經完成了,長得這樣:

中古韻目的索引比較麻煩,未完成。

5 个赞

辞源第三版 有个优盘版,不知道里面的数据是啥样的

臧否

2 个赞

cmm美化版就没有这个问题:doge:(因为她把拼音隐藏啦:laughing: