【Mastameta】漢語大字典（圖文綜版）25.9.14

Mastameta · 2022 年8 月 7 日 14:57

試試新版。我發現我原來把相關 woff 的 unicode-range 定得太窄了。MDict PC is more forgiving about things like this.

sy101 · 2022 年8 月 7 日 21:55

辛苦M大了。非常感谢！不过下载更新了顶楼最新版后发现还是不行，具体表现是：查询“直”字后，一开始可以显示括号内带竖折的“直”字，然后一两秒后显示画面闪动，随即变了一种显示字体，最后括号内的“直”字就变成了底部为“一横”

Mastameta · 2022 年8 月 8 日 03:45

我認為 html/css/woff 依據標準。DictTango 行為出乎意外，只能向 glacierlee 請教。

glacierlee · 2022 年8 月 8 日 04:23

我猜測應該是詞典mdd本身有自帶了字體，然後用戶本身在DictTango的全局顯示字體裏添加了WFG的大字體並且是按需加載模式，這種情況下可能會造成衝突。
如果是這種情況，我建議對於大於30mb的字體，不要加到全局顯示字體，而是加到有需要的詞典的專用顯示字體裏，對於已經有自帶字體的詞典就無需添加專用顯示字體。

sy101 · 2022 年8 月 8 日 06:19

没有添加全局显示字体

glacierlee · 2022 年8 月 8 日 06:42

那应该是另外一种情况，这是QQ群里的一位群友分析的。
------13:47:22
这是因为webkit浏览器会（我才是根据用户系统语言）自动替换字体的表现型。

------13:50:12
这个字是旧字体，主要是台湾地区使用，所以大陆地区用新字体替换了。

------13:51:14
ie核心的就更加忠实，当然你也可以说不如其他浏览器“智能”。

------13:52:09
而且，不光这样，有时候同一个字ie，firefox和chrome会有不同的表现。

------13:57:25
据观察，“智能换字”只限于兼容字。其他字貌似不受影响。

------14:27:32
所以这个问题不是软件问题，是浏览器行为。

------14:29:27
不信你看，在ie核心的mdict上就没问题了。

------14:32:09
“智能换字”的初衷应该是为了让字形适应不同地区用户的用字习惯，可惜没考虑到咱们这种情况，好心办了坏事。

Mastameta · 2022 年8 月 8 日 07:34

webkit 的替換行為，大概是硬硬地根據 Unicode 組織對兼容字的說法。具體狀況是 Unicode 聲明舊字體 “直”（U+2F940) 等同新字體 “直”（U+76F4）:

兩個字音義相同，若只在 email 裡讓 “直” 換成 “直”，那無所謂，但字典當作不同字，需要並陳而分辨，甚至有時會分別立目。
Unicode 認定 “等同” 的標準很氾濫，而且它不在乎的差別，經常就是字典關注而強調的區分！

總之，Unicode 認為兩字等同，webkit 不追究這說法的旨意，也不在乎具體的使用環境，就死板地實施了。而且，商業字型庫都支持平面二的兼容字，沒必要這樣替換。

alexpeng · 2022 年8 月 8 日 08:43

网上看到的，供参考。

qqxiuzi.cn

请勿使用“兼容表意文字区”的汉字

Unicode 之初收录汉字遵循两个基本原则：表意文字认同原则和字源分离原则。所谓表意文字认同原则，即只对字，不对形编码，将同一字的不同字形（即异体字，不适用繁简体）合并。例如房字的第一笔，在中日韩的写法都不同，但它本身是同一个字，只给一个编码，而写法的不同交由字体进行区分。字源分离原则，是指一个字源中同时收录了同一个字的不同字形，则给予两个字形分别编码。例如：戶、户、戸三个字。基于这两个原则，Unicode 能大幅减少收录汉字的数量。然而这两个原则是相互对立的，字源分离原则破坏了认同原则

Mastameta · 2022 年8 月 8 日 08:53

不區分平面0與平面2兼容字的狀況，就講得不全面，不管用。

xfor · 2022 年8 月 10 日 03:34

漢語大字典在特殊年代開始編撰，編輯的原則很大程度不符合字書規範：
1。正簡字體混合。大陸學生看不懂。使用正體的人又厭惡簡體。
2。解釋重復。把說文、玉篇、廣韻、集韻、康熙字典、中華大字典誤黨字義書證，導致重復冗餘。
3。鄙俗字，錯別字，不穩定的鄙俗用法收錄太多。本有正確用法而不用。相當於妓比正宮更重要。
4。相當的近代書證，毫無意義，並無增加字義，只增加冗餘，浪費讀者寶貴時間。
5。政治書證具有時代性不應引入。
6。外國宗教詞彙本不屬於漢語，不應引入。
7。科學術語不正確。編撰時沒有參考科學技術專業詞典。
8。政治術語也不準確。
總之，這本書雖然巨大，但基本上無文學價值。不值得花費時間搞電子字典。

xfor · 2022 年8 月 10 日 03:38

23個則天文字，應從字典中刪去。這是唐朝已經正式廢除的的文字，且本有正字。

xfor · 2022 年8 月 10 日 03:44

[喬頁]是個錯別字，康熙字典其它地方用[䯪]。這個自符合六書，比[驕傲]字更適合，畢竟人驕傲比馬驕傲好，但是沒人用。康熙字典中有幾十個錯別字，所以Unicode沒有收入。

匿名1311 · 2022 年8 月 10 日 17:43

你真逗～～～～～～

一叶花 · 2022 年8 月 11 日 00:10

不要理他。

Mastameta · 2022 年8 月 12 日 06:33

加了𣎛|𦠈字組

sy101 · 2022 年8 月 12 日 10:10

M大辛苦了，感谢精益求精！

Mastameta · 2022 年8 月 23 日 07:56

目前服務器不能上傳新版，先簡單做個記錄。“𧠊”的第三釋義錯誤合併，當歸“㒻”字條。

這些字條，“同 X” 的 X 指字頭，必定是錯字：𥁺、𥪿、𤁩、𧆢、𥦹、聮。
𥦹、聮兩條，紙本本身有問題。

又簡單修了音韻。方案是把列出的《廣韻》【聲調】【韻目】抽出來，然後在 Emeditor 用 delete duplicates。留下來的，原則上當有206行【聲調】【韻目】組（因為廣韻206韻有固定聲調）。超過206行的，不是聲調錯，就是韻目錯。修了幾十條。

endnote · 2022 年9 月 5 日 14:37

图文对照看，可以安心使用

唐棣之華 · 2022 年9 月 6 日 05:56

M大是否考虑合并同属于一条引证的内容呢？我发现可以通过两个文本特征，用正则把同属于每条引证后的所有「注疏」文本查找出来。每条引证的注疏部分的文本特征是：一般不会出现书名标签<i>，特殊情况是书名标签出现在注疏的引号内 。根据这两个文本特征，就可以用正则把每条引证的注疏部分都找出来，然后通过更改标签把它们合并在一起。我对< p>标签的文本分别用正则<z>((?!<i>).)*<\z> 和 <z>((?!<\/z>).|\n|\r)*“((?!”).|\n|\r)*<i>((?!<\/z>).|\n|\r)*<\/z> 尝试提取了下，好像是可以实现的。不过我正则和emeditor操作都不太熟悉，但是这是一个思路，你看看这方法可行么？我觉得根据文本特征，用正则来提取合并引证应该是可行的，大多数情况是不需要人为语义分析处理的。

Mastameta · 2022 年9 月 7 日 01:21

that’s an interesting observation that would probably work. it might take weeks of testing to see if it gets the desired results, after which time, I would have made other edits; if I have to revert to the prior version, I would need to repeat the other edits, which would also first need to be logged. that’s extra work to test it.
more to the point, I think it’s fine to visually separate things that logically go together, just like breaking a long paragraph into two short paragraphs: it makes it easier to read.