王力古汉语字典更新（2021年8月26日已核对完）

登徒浪子 · 2021 年8 月 26 日 09:22

这个个人校对难度太大了

sxingbai · 2021 年8 月 26 日 09:33

这两天比对那个版本，发现错误很少，确实是目前最好的版本。现在主要问题是注音，我打算先对全文ocr，然后把前面有括号（不管前括号还是后括号）的词头提出来一一检查，虽然这样肯定还有不少遗漏，但也是目前最可行的方法了。
你觉得怎么样？如果有意，一起校对怎样？

碧落黄泉 · 2021 年8 月 26 日 10:07

感谢楼主的辛勤工作~
最终版没有高清的mdd了吗？

登徒浪子 · 2021 年8 月 26 日 10:11

今天晚上把高清版的上传到

碧落黄泉 · 2021 年8 月 26 日 10:11

哦哦，十分感谢~

登徒浪子 · 2021 年8 月 26 日 10:11

可以，不过人少的话，你就得做好长期的准备

sxingbai · 2021 年8 月 26 日 16:14

嗯！我有心理准备。很多时候与其去招集人手，不如自己动手做起来。无它，爱好！
我现在先把我原来的汉大与这个版本的词头比较一遍，然后再开始语音的订正。
也许要学习如何调教tesseract。

abs · 2021 年8 月 26 日 17:43

感谢楼主的工作！

那个新出的汉大2.0就有好多可以校对的地方。

Mastameta · 2021 年8 月 26 日 17:56

謝謝老兄的修改。我跟我的版本對比了一下，讓我糾正了四五個字，例如把舊體“弒”改成王力字典的“弑”。集體合作修改mdx總是最有效的。

比對之後，兩個版本之間還有250多字的差距，例如：

（字頭、頁碼、版本）
㗲 WL0136頁 MM
嚍 WL0136頁 DTLZ
嚏 WL0139頁 MM
嚔 WL0139頁 DTLZ
㘊 WL0140頁 MM
娜 WL0196頁 MM
挪 WL0196頁 DTLZ
婧 WL0201頁 DTLZ
婜 WL0203頁 DTLZ
媐 WL0203頁 MM
嶭 WL0256頁 DTLZ
𡾆 WL0256頁 MM

MM-DTLZ - Wang Li comparison.zip (1.6 KB)

標“MM”條：我版本有、該版沒收納；標“DTLZ”條：該版有，我沒收納。
標“MM”每條，我重新查了，最後保持原樣。（“MM”條，只指字典字頭，不包括我另外加的異體字跳轉。）

字單250多條，參考紙書就能校訂，但也有些特別狀況，涉及到電腦字型和Unicode標準的複雜問題，值得注意，也蠻有趣的。

王力1576頁：

該版用“󺑇”（⿵門爲）—這是私有區字，普通使用者打不出來；而且離開全宋體的環境就是亂碼了。實際上，“⿵門爲”字形已經有標準字碼：“䦱”。

SS=Windows SimSun (Simplified Sung) 中易
ZH=Zhonghua 中華書局
CY=FZCiYuanSong 辭源
KS=KaiXinSong 開心宋
ML=Windows MingLiU (Ming Light - Unicode) 細明
FS=FSung (Full Sung) 全宋體
KX=康熙字典

上面的字型譜，說明中易字型（SS）、中華書局字型（ZH）、辭源字型（CY）都能顯出王力字典的“⿵門爲”。我建議，最好用電腦字型解決問題，盡量避開用私有區字。

王力761頁，字頭第二的字形：“⿸疒⿱罒乑”

該版用相容區字：瘝 U+FAA4。在宋體顯，顯出“疒罒乑”，看來是對的，但我建議不要用這個字碼：它屬於被廢的相容區字，之所以中華書局、Windows中易、Windows細明等等字型都不提供；而且大多使用者打不出來，無法用它來查這個字頭。

再說，全宋體（FS=FSung）這個字有點問題，不符合Unicode規範字表。Unicode只提供“KP”的字形，說明這個漢字來自北韓！（KP=People’s Republic of Korea)；北韓字形是“疒罒水”，跟王力字典不合。

我建議用“瘝”：U+761D。若參考規範字表，會看出日本來源（“J”）和韓國來源（“K”）的字形卻是符合王力字典的字頭。雖然兩岸三地的字型，沒有一個符合王力字典的字形，但是以Unicode標準來講，這個字典字頭的標準統漢碼就是“瘝”：U+761D。

而且，U+761D 字碼也符合《漢語大字典》的字形。兩個字典能夠通用最好；字碼不該有分歧。
漢語大字典，2878頁：

（全宋體的私有區字也有“󰽷” U+F0F77 “疒罒乑”），但已經有標準字，沒必要依賴私有區字。）

mdx可以這樣寫：
瘝（標準字）
@@@LINK=WL0761
</>
瘝（被廢的相容字）
@@@LINK=瘝（標準字）
</>
瘝（全宋體私有區字）
@@@LINK=瘝（標準字）
</>

電腦字型與字典字形的關係有很多微妙、奇怪的狀況，而且Unicode本身也有錯誤，他們一直沒改因為想保持穩定，這是製作mdx群體值得注意的現象。

我上面列的字型譜，我花了一點時間作出來，大概一個禮拜能完成我要加的層次，已經收了~95,000的標準漢字碼、和mdx群體所重視的字型，另外也有70,000私有區的字碼（主要針對全宋體、開心宋的私有區）。

最近，很多人從開心宋轉到全宋體，在這個轉變中特別需要意識到每個電腦字型的特點。

登徒浪子 · 2021 年8 月 27 日 01:36

我正在考虑咋让全宋体能在手机上使用

qqqaawr · 2021 年8 月 27 日 02:03

非常感谢楼主分享，制作字典很辛苦，谢谢

Mastameta · 2021 年8 月 27 日 02:05

手機上怎用全宋體，這跟我上面說的重點好像沒關係…

而且這種純粹圖像mdx，沒有顯示文字的需求，使用者能輸入、搜尋到字是關鍵。（除了糾正字頭以外，我上面另外的重點就是這方面。）

我作的王力mdx，同時有圖像、有文字，就得考慮電腦字型問題 – 簡單來說，光是用一個字型是不夠的。這不是全宋體全不全的問題，而是unicode漢字碼經常有 ”一碼多形“ 的狀況，所以字典若有 ”並陳“ 多形的需求，任何一個字型就不夠用。任何字型再“全”也避不開 Unicode 這方面的基本設計。

MeigenChou · 2021 年8 月 27 日 02:24

个人认为大陆的出版物就应该使用大陆字形，台湾出版物用台湾字形

全宋体是台湾字形，不适合用于本帖的王力古汉语字典，也不适合手机

Mastameta · 2021 年8 月 27 日 02:34

這把問題想簡單了，講大陸、台灣不如講新字體、舊字體。古代漢語字典有很多字形，以新字型為主的電腦字型無法顯示。再說 G, 擴展區的字中華書局字型根本沒有，更早的字也沒跟上unicode 13.0。除了G以外，漢語大字典有的字形只有全宋體能準確顯示。而且僻字的簡體字，全宋體有，大陸字型反而不見得有。

我是美國華裔，所以大陸朋友對台灣的態度就不用噴到我身上。

登徒浪子 · 2021 年8 月 27 日 02:41

主要大陆的字体现在以简体为主，所以繁体字没有那么强势，台湾那边还是繁体字，虽然不想用繁体，没有办法

登徒浪子 · 2021 年8 月 27 日 02:42

只谈词典，不谈其他

MeigenChou · 2021 年8 月 27 日 02:58

上文说过仅代表我个人想法

大陆字形当然有分新旧，当然有古籍上的某些字无法匹配到合适的字体，但显然也不应该直接照搬台湾字形（诸如全宋体）

其他没什么说的了。我也不想扯到别的方面

Mastameta · 2021 年8 月 27 日 03:20

講舊、新，不如看各字、各字型的狀況, on a case by case basis。我個人覺得，若是講究字形這方面，處理mdx，尤其是超過基本字區的字典，不能全靠一個字型，必須混用。但這樣做，在CSS 和tag方面要填上更多事兒。

另一方面，因為Unicode擴展區的歷史，一般採用台灣標準的細明字型，有不少字形實際上來自北京中易字庫，所以說大陸、台灣，沒有很多意義。要看字嗎、字表才能具體講。Case by case.

abs · 2021 年8 月 27 日 03:25

全宋体搭配WFG的部件检索很好用，缺点是丑，手机上没法用，不过没有更好的代替品了。

endnote · 2021 年8 月 27 日 03:41

免费无版权的，已经是用爱发电了。再说美丑是因人而异。

这个是操作系统的差异造成的，显示字体的机制不一样