【9月18日更新】王力古汉语字典文字版

四字词拆两半作何考虑?

考慮查字習慣。比方說,碰到“僸佅兜離“(古代四方少數民族音樂名),使用者不知道是一套詞,所以分別查“僸佅”或“兜離”。

另外,有的典故不引用整“句”,只點上一部分,或是拆分來造新句。
若碰到“羚羊掛角”的用典, 查“羚羊掛角”、“羚羊“、或“掛角”,都會跳到“羚”字條,能看到相關詞目。

很多情況下,使用者也許覺得“拆分”查資料較保險,但有的詞目就是要整句才能查出來,除非有這種拆分跳轉。

1 个赞

哦,拆分好像更适用于歇后语或是长一些的谚语,四字格拆开还是有些怪。不过个人习惯,没有好坏啦。

兄台考虑问题很细腻 :+1:

1 个赞

我同意效果有時會怪怪的,最好看語境來處理。要是處理一個大詞典,無法一一看狀況,批量加拆分跳轉卻是不妥。

針對整頁圖像版,跳轉應該更有限制,要不然使用者容易疑惑:這不是我打的字,為什麼跳到這頁?我既然跳到這兒,整頁一堆字,我到底要注意哪個字條?哈哈 。文字版,字條是單獨的,就沒這個問題。

不知道现在没有文字+图片版了?要是有现成的我就不动手了,感觉两本放一起对照用更方便。

1 个赞

目前好像没人发新版档案,看看有没有朋友可以把上面有讨论且已修正完毕的内容,统整为修正版的mdx。 :grinning_face_with_smiling_eyes:

我在做的卻是這個意思。能對照很重要,尤其是文字版未經過長期使用。(其實,電子版的問題,不少來自紙書本身,例如標點不規範,或是字頭跟釋文所用的字體不同,使 href 連接 — “參見‘X’字條” — 的目的地跟字頭字碼不合。)

progress report: 文字版只要處理些細節,然後就能跟圖像板合併。(設計:要點上去才會顯出圖像,不自動顯示圖像。)那步很快,只不過合併版的CSS得調整。

前幾天也沒專心做這個,因為Unicode 14.0上個月發佈了,所以我也同時在作個《漢字碼字型譜》mdx。

4 个赞

這圖片字是錯的:既然是同一個“翍”字,廣韻反切當然也一樣。這錯誤來自紙書。改成“羈”。
image
image

釋文出現 “󱽗”F1F57 私有區字(字形:礻冉)。這是錯誤,我改成“袡”。
看 袡 字條的最後一字(礻冉):
image

辭源引同一句,用“袡”:image

明顯這個“礻冉”應當是字頭“袡”。這個問題來自紙書,出現四次,mdx沒必要複製紙書的錯誤,而且換掉私有區字總是好事。


這都是紙書的錯誤:
翟字條:入,陌,澄韻。 > 入,陌韻,澄。
䴷字條:澘韻 > 潸韻
臟字條:岩韻 > 宕韻
脟字條:獼韻 > 獮韻
埽字條:皓韻 > 晧韻
陌字條:入陌韻 > 入,陌韻
鐓字條:平﹑魂韻 > 平,魂韻
董字條:讀音不應當有“1”號,因為沒有“2”號。


古音內容有2,000多條需要調格式,例如:
image

find:([牀床喻照審穿])([一二三四])。
replace:\1<sub
>\2</sub>。

沒有逗號的案子,要手工改。

4 个赞

目前樣式長這樣:


左傳 成公十三年
左傳 僖公 三十三年

紙書大多把 《左傳》 “X公” 當做專名,而不當做書名的一部分。------該不該改?

他對這個格式不是一致的,看第一釋義,跟第三釋義。

1 个赞

兄这个样式好看,哪里可以下载?

1 个赞

還沒做完,還剛開始作CSS。過幾天會發綜合版。

3 个赞

我觉得不用专名。推想《左传》为书名,而成公十三年,是书中内容。可能有些书把它独立成为篇名吧。如果把成公专名,那也许连带十三年也要一起专名。
个人愚见,仅供参考。

此处「某公」当专名是不合理的。一般是把左传当作书名,成公·十三年、僖公·三十三年当作章节名。如果把「某公」标注了,「某年」不标注,后面又使用冒号、引号,看着也奇怪


这个问题可以先保留着,待我弄清之后再解决

@sxingbai @okayer
我也覺得不合理,看得我手都癢了。
我的看法是跟書名連在一起的“某公”幾年,若出現在引號之前,該改。
(這類春秋、左傳、穀梁傳等等“某公”幾年,2,500多條。)

但夾在引號之中的,就不動它了。例如:
image

值得注意的是中華書局用的格式:
《漢書》:1397頁
image

1 个赞

批量处理小心误伤其他,建议留到最后一步再决定,可以先发布几个版本稳定了再处理。

可以考虑给这些换个新的 html 标签,然后css去掉下划线。
总之清除 html 标签容易,后悔想加回来就麻烦了。

好主意。但幾輪正則寫得很specific,隨時能改回來。(另外,引號之間的特別案子只有幾個。)
<引證><書名>左傳</書名><專名> ([成宣襄昭桓僖莊文隱定閔哀])公</專名>([元一二三四五六七八九十]+年)

再說,大批替代,我都先用EmEditor “Extract replace”(這很有用),先試驗到底會影響什麼數據;不會盲目替代的。

3 个赞

正在做拼音索引,發現電子數據有錯誤:

image
image

3 个赞

老兄用心专一精益求精的治学态度值得学习!

1 个赞