【Mastameta】漢語大字典(圖文綜版)4.22

是不是书证,还能有一点点的谈论余地……但它绝不是释义,这是肯定无疑的。《汉语大字典》的书证顺序,除了按时间排序,还有一个最高的排序标准,就是字书的排序优先,你可以看到,说文、方言、尔雅、释名、广雅、玉篇、广韵等的书证无论时间,皆置顶排序,因为它们的重要性是要高于其它书证的。(题外话,你会看到每个字头,都不费篇幅地在旁边设置说文一栏,这就是字书的重要性与特殊性,这也体现在以上所谈的编纂标准里。)

2 个赞

所有 “也作X”“亦作X”“后作X”“X的古文” 等等格式都鏈接化了。有時 “X” 並不是字頭,在這情況下加了 “X〔Y〕” 當補充。

例如 廩 字條:

从 “禾” 的字形是傳統正字,但 “通用規範” 字从 “示”,所以當字頭。

𥌂 字條:

第一個字形是正字,但大字典採用第二個當字頭。

字條:廩、伈、孽、櫱、𣉰、沩、潙、𤀵、挅、𰔂、𤓴、𥌂、𥌗、㾶、𥨈、𦈨、𦈵、萖、蔅、𨟲、𨽨、𨦃、靺、𩭧、奥

一些類推簡化字的繁體對應是錯的,修了。更新了。

7 个赞

Mastameta 兄设计精心,好多地方真是令人敬佩。谢谢

回报发现的一些小问题——

釋義誤入讀音:【团】
讀音誤入釋義:【㕨】

誤作復詞詞頭:【見孤科】【把盞科】【做掩泪科】【做滑𢬡科】

括號[]問題:
【𡚸】[𡥘𡚸]=〔𡥘𡚸〕
【軒】〔墄]=〔墄〕
【𥆎】[皮〕=〔皮〕
【𤝮】[箭〕=〔箭〕
【桼 】[椆]=〔椆〕
【𠱙】[𠴫]=〔𠴫〕
【𥄝】[眄]=〔眄〕
原書中更正符號既有[]也有〔〕;由於[]被您用作IDS拼字,則更正符號建议可以統一為〔〕。

另外一些缺失条目的字头,似乎是由于字形差异。
比如原书【珎】收录的字形既不是大陆标准、也不是康熙字典字形,而其实是日本字形,故而OCR未能识别出来。建议这种情况,不必非要强求和原书一致。
屏幕截图 2022-06-15 223018

4 个赞

《汉语大字典》的引证包括书证和例证两种,顺序是先书证,后例证,两者分别再按时间顺序排序。当然,凡引用的字书就是书证。

2 个赞

【獵】image
【𤝻】image

〔〕、[]混用,但後者只出現7次。統一為〔〕是好主意。

標籤設計分讀音、釋義,但字書罕見的字,僅有音而義闕,分類不明確哈哈。像下面這個 “团,俗” 是在解釋語域,不僅說讀音,讓我猶豫…歸釋義也有道理呵呵。大概有一百案子,我覺得怎麼分都有點任意 (arbitrary)。先這樣,以後也許想出更明確的規則。

image

【珎】,就是缺字條,不是說在講究字形。文字版缺 700 多標準字字頭,有數據就好了呵呵,the rest is just details.


軒字條,釋義6:這個 “[墄]” 沒有更正的對象哈哈,因為漏了字。

imageimage

image
image

我給補上去了。
image

更新了,CSS也有改善。

3 个赞

多谢更新。

其实我想说的就是——网上存在一个OCR过的PDF文件,如我贴图所示,除了奇怪的字形外,其它字都已经识别出来了。缺字条可以用它作源数据,只需要进行一些补字和改错的工作就好了。
比如【珎】字条,OCR的文本是:

同“珍”。《玉篇.玉部》:“珎”,同“珍”。唐杜甫
《麗人行》:“黄門飛鞍不動塵,御廚絲絡送八珎。箫管哀
吟感鬼神,賓從雜遝實要津。”

感觉识别非常不错,甚至有可能人为修正过!利用它应该能简化您的工作。

另外,
【犮】第二字条,多了一个</yt>标签,造成样式错误。
【𣙾】条有个不完整的 /p>
建议排查一下标签的匹配情况。

4 个赞

感谢M兄更新,精益求精。

收到。

我一直都建议把每个版本的压缩包都标注日期、备份留着(例如都留在本论坛网盘上)。
由于从MDX反编译为TXT时词条顺序不可恢复,如果在乎文本词条顺序的,最好编译前的TXT也备份。

毕竟用正则表达式批量替换,一不注意有可能出现意想不到的问题,等过段时间发现时不一定能补救回来

1 个赞

又更新了。謝謝指點和分享OCR數據,有空來瞧瞧。

@endnote,我電腦積累一堆備份舊版。

2 个赞

貌似下载不到更新后的数据。说“文件未找到”。感谢M大精益求精,造福书友!

3 个赞

重新‘分享’了,鏈接變了。再試試。

1 个赞

现在可以下载了。再谢M大!

1 个赞

15号版本有556颗星,16号版剩下513颗。
昨晚“打掉”20颗。

:sunny: {言為}
:sunny: 玉篇文字版。 看大字典图片应是全宋体私有区字“󼘥”。
:sunny: 󰚄 {⿱少免} 全宋体私有区字
:sunny:
:sunny:
:sunny:
:sunny:
:sunny: 󰦿 {矛攴} 全宋体私有区字
:sunny:
:sunny:
:sunny:
:sunny:
:sunny: 󽉿 {⿳⺻灬火} 全宋体私有区字
:sunny:
:sunny:
:sunny: 󿗄 {⿰片⿱千臼/曰} 全宋体私有区字
:sunny: 下方是“冊”
:sunny:
:sunny: 𰫇
:sunny: 󽘼 fd63c 全宋体私有区字
2 个赞

【譧】 同“”。→应该是“詀”。
【󱅙】@@@LINK=→PUA字,只出现在【花】字条,根据上下文,应该是“冢”讹字。
【𧔠】 同“𧔠”。→字形没区别,应该加上标签<reg T>𧔠</reg>
𧉦】→𧊎。隔壁论坛指出的,原书与其他后出的许多书一样因袭《康熙字典》的字形错误,似乎只有《大漢和》对了。这个直接改似乎不太好,建议可以加一个跳转。

1 个赞

@alexpeng
收了,謝謝。像 U+4343 這種字,一碼多形,不必用私有區字,用字型來分。這是中華風格:

@notwind
沒見過人把我跳轉也翻了一下哈哈。很細心。
𧉦→𧊎 的案子像下面 𦬦 字。如果字頭字形有問題,我加跳轉而已,不直接動字頭。

附帶一提,大字典有時硬要把字頭改成像新字體,既脫離傳統字書而失真,又不符合 Unicode 標準,例如 𢯲:
image

Unicode 陸源、台源字形,和所有商業字型都一致,採用康熙體,大字典偏要更改舊體。這裡如果在 font 方面配合它就是一錯再錯。

——————
更新了。“:sunny:” 砍到 478 了。

3 个赞

有没有一种打地鼠般的乐趣?

2 个赞

一起来玩吗 :grin:

㝅:
4.谨慎。 玉篇‧子部 :“㝅,愨也。”

大字典对“愨”的解释,只有3个。
1.恭谨。2.忠厚;诚实。3.志。

没有“谨慎” , :grin:

1 个赞

古書訓 “謹也”、“慎也” 罷了,現代漢語啰嗦填塞成復詞 謹慎、恭謹。幾乎是互換的,但 “恭” 可以強調顯在外貌的敬心,“敬” 講內心。“愨”的例證: 荀子‧富國 :“觀其便嬖,則其信者不愨,是闇主已。” 是講從外貌探索出來的心態。

大字典 “愨” 的釋義繁碎:

  1. 恭谨。
  2. 忠厚;诚实。

何必這樣分哈哈。都是一個脈絡的,誠心而謹慎的意思。謹,慎也,慎=真心、誠心。
王力字典更乾脆: “”愨:誠謹。”

1 个赞

謹慎和恭謹現代漢語應當分化了。
謹慎——小心
恭謹——恭敬

我覺得“㝅”的第4條解釋改成恭謹更合适。字典內容更一致豈非更好。

“㝅”的第4條解釋內用的{⿱㱿心},這個字(形)在大字典中竟然沒有?也許這裏搞錯了?

1 个赞