釋文中有400多錯字。在 protect 提供的數據,原為私有區字,在這個文字版,變成一個 random character。這些字形沒有 Unicode 編碼,所以不可能轉成標準字。
324 headwords with PUA.txt (4.1 KB)
釋文中有400多錯字。在 protect 提供的數據,原為私有區字,在這個文字版,變成一個 random character。這些字形沒有 Unicode 編碼,所以不可能轉成標準字。
324 headwords with PUA.txt (4.1 KB)
商碼对应字符
一 二 三 四 五 六 七 八 九 十
〡 〢 〣 〤 〥 〦 〧 〨 〩 十
(〩和书上差别还是大的,书上接近于文)
字头 | 误 | 正 |
---|---|---|
一 | (31)……通作壹。商碼作~。 | (31)……通作壹。商碼作〡。 |
三 | (5)……商碼作川。 | (5)……商碼作〣 |
六 | (8)……商碼作丄 | (8)……商碼作〦 |
七 | (7)……商碼作売 | (7)……商碼作〧 |
九 | (11)……商碼作文 | (11)……商碼作〩 |
另外,㐅改〤???
555,大神,我想要你这个图片版,因为你的图片版可以查到“㞒”字
七字头下有
釋文:古牝字。見《集韻》。
釋文:變也。从到人。見《說文𠤎部》。《段注》:變者㪅也。凡變~當作~。敎化當作化。許氏之字指也。今變~字盡作化。化行而~廢矣。到者今之倒字。人而倒。變~之意也。
此两条字头应为 𠤎 (U+2090e)。
见第150页、第151页。
少 釋文:蹈也。从反止。見《說文》。【玉篇作禪】。
字头少有误,应为 𣥂(U+23942)
𡶫 釋文:危高也。見《說文𠂤部》。【按正譌云。辥字从此。商書天作~。別用孼。譌】。
字头𡶫(U+21dab)应为 𡴎 (U+21d0e)。见 P0394 (【丑集】第193页)
删除了一百多重复字条。
修正了一些错字。
修正大部分被随机替换的私字。剩下部分直接用XX代替。
想对陀佛哥说,对于非原创者做出的后继式修订更新,您作为原创者还是要把一下关再发布比较好
请问这个mdx更新是适用于您的图文综合版,还是佛大的纯文字版呢?
呃,宇字傻傻的分不清
字头 | 错 | 正 |
---|---|---|
𡶫 | 舊注音訓同𡶫。 | 舊注音訓同𡴎。 |
㙾䐵䝩珷鏸𢕝𢥧𥡜𦝜𨿀(等10字) | 或宇 | 或字 |
𩜓 | 俗宇 | 俗字 |
佸 | 小徐本無此六宇 | 小徐本無此六字 |
卄 | 詳廾宇 | 詳廾字 |
嶰 | 參閱澥宇 | 參閱澥字 |
平 | 宇俗書作秤 | 字俗書作秤 |
忑 | 詳忐宇 | 詳忐字 |
慾 | 詳欲宇 | 詳欲字 |
叜 | 攷凡从~之宇 | 攷凡从~之字 |
頉 | 宇彙補 | 字彙補 |
鳽 | 古鸇宇 | 古鸇字 |
𠄨 | 古恆宇 | 古恆字 |
𡩪 | 古寅宇 | 古寅字 |
𢃷 | 古牟宇 | 古牟字 |
𤨝 | 瑟本宇 | 瑟本字 |
𦟝 | 脊本宇 | 脊本字 |
𨓱 | 俗逃宇 | 俗逃字 |
𩞦 | 見《宇彙》 | 見《字彙》 |
𩧀 | 驖本宇 | 驖本字 |
𨅥 | 亦䠊宇 | 亦䠊字 |
𪋖 | 當卽𩙒宇 | 當卽𩙒字 |
溉 | 寰字記曰 | 寰宇記曰 |
宇与字,这字典,真不好区分啊。
中华大字典20220527.7z (6.2 MB)
字头 市
误入帀
文本應該是掃描識別的。
这种情况应该还有不少,比如——
甪【~里先生】用
冑5191【甲~】胄80C4【~裔】
䐠4420【狼~】㬻3B3B【𣎲~】
不分胄、冑,到處都是。辭源、王力釋義、例證也有。搜尋復詞、搭配詞…亂七八糟。甲胄、介胄、貝胄、懸胄、被甲、袒櫜奉胄、𨏟胄甲弩 等等。
大字典紙書本來也不分胄冑,只標 胄1、胄2 而已。
䐠、㬻之類的,新字體字型本來就不分 肉、月偏旁。而且康熙214部首縮成200部首,所有肉旁就混於“月”部了。大字典肉部,僅是 6 筆畫的“肉”部件而已。
默认的方正辞源宋体,胄、冑明显有别,所以我修改时会尽量把它们区分出来。
中华大字典纸书虽不分胄冑、䐠㬻,但籍合网版的字头是分开的,如果再合一起会很奇怪。
呵,来几对双胞胎,有人分辨出来么?
𣆚 | 𠕝 |
---|---|
晟 | 𠕠 |
𣍓 | 𠕰 |
一边日字头,一边冒字头。汉字双胞胎真不少
请问大神,中华大字典籍合网版只能在goldendict使用吗
我是在MDict下使用的。
记得籍合网原版在MDict下应该只是js和字体有问题。字体和js在1.mdd里。您可以试着解包1.mdd,把字体安装到系统,再把1.mdd删了,这样就可以了。
卄【=廿 niàn 】廾【=𠬞 ɡǒnɡ】
𠦄卉【俗𠦄字】
这组字似乎也有问题。
𣆚KX 𠕝KX
晟 𠕠KX
𣍓 𠕰KX
上面標 “KX” 的字,來自 康熙字典,也就是說因 康熙字典 而加入Unicode。不是日韓獨用的字,只不過日韓在某些字會更保留舊字體。
這種 Unicode 來歷的信息收在 UniHan 資訊庫,標在 IRG Source field。
例如 𠕠 字
https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=𠕠
“GKX” 的 KX 代表 “康熙字典”;G 的意思是大陸提交的字形。
一般來說,如果 IRG Source 特別表某個字典(例如 康熙字典,大字典,大詞典,辭源),該字當字頭(像上面四個字)。偶爾該字只出現在釋文。也有些特別狀況,像大字典第一版的字形有問題,在第二版改變了,例如 𧃱、𧂘:
大字典第一版 提交了這個字形(而加入Unicode):
所以 IRG Source 是 “GHZ”(=大字典):
後來在第二版改成:
這個字形較接近為康熙字典(GKX)加的漢字:
總之,雙胞胎怎麼分辨,有時要看這個 Unicode 漢字的來源。