我没有比对过不同版本的词头,过去我不怎么用图像版。但如果没有检索表,我还是传上来,你看一下,我觉得可能会有用,那些X字他都放在待定词头那个表里。
汉语大字典第二版(待定字头表)by tsiank20140415.zip (10.6 MB)
刚才看了一下文字版,发现同类错误31处,以前也改过另一类错误,但忘了是啥了。
感谢费心,研究一下。
不太明白你的意思。
APP已经抓完了?可以放出來,一伙人在外面白忙呼幾年了。重複勞動就是浪費生命啊
我個人覺得tsiank的漢語大字典mdx做法太依賴私有區字。比如說,“𧆙”字頭查不出來,因為從第一版到第二版,這個字頭字形變了,第二版字形只有私有區字能表現。
第一版(3340頁),字形右邊是 “口糸” — 這個字有標準碼。
第二版(3561頁),釋義是完全一樣的,但字頭字形改成 “尸糸” — 這個字形沒有標準碼,mdx用全宋體私有區字。
既然兩個釋義是一模一樣,他們當然是同一個字,理論上,不管mdx用標準字(口糸)或是私有區字(尸糸),都應當可以查到第二版3561頁字條。我後來採取的做法是兩個字(標準字跟私有區字)都標上來當字頭。私有區字標紅色。
當然,也可以用跳轉來解決這個問題,但區別是界面列出所有可能性的字形更好用:使用者可以選擇性繼續查字;光用私有區字,很難跟別的mdx通用。
也就是說,如果有接近的標準字,應當列出來,不要光用私有區字。能正常查字最優先,單選一個最準確準確的字形並不要緊。
词典软件本身很难支持这些私有区的字,第三方的中华书局的字体和WFG那个部件检索的私有区字符编码也不通用,这些私有区的词头基本上只能浏览无法查询,能校对成标准字或者字形接近的标准字就很方便了,实际字形可以在词条里图片显示,或者单独提取出对应字体来特别注明,这样既能保证能查全,又能使用标准字体,方便在多个软件中交换使用。
校对这步,不知道有没有快捷的方法?
@abs
#213的帖子,我完全同意你的觀點。
關於“校對這步”,我當做不是針對漢語大字典(他的狀況較特別),而是廣泛的疑問。這一步可以分兩節,一個是私有區字跟標準字的關係,一個是標準字碼跟(標準)異體字的關係。後者,除了《中華大字典》和《教育部異體字字典》這種工具以外,也可以從各種mdx用正則抽出“A同B”、“A通B”,“一作B”模式,積累一個@LINK資訊庫。另外的補充:用心的人作mdx,他們的@LINK值得收藏,例如tsiank和WFG(對康熙字典和說文解字)作的跳轉,都應該存下來或是過濾而存。
關於私有區跟標準字的關係,上面講的@LINK也會含有這種跳轉。不得已時,我只能笨笨得在部件檢索去掉一個部件重新搜,或是開始替代部件,用舊體、新體、異體、訛形關係來替代部件,然後再參考異體字或@LINK資料。這不是你說的”快捷”方式,但這個過程若有成果,可以順便寫個(私有區跟標準字的)@LINK跳轉,同時收藏這個信息,以後能用。
@abs,哦,想起來,你原來問的是校對兩個字單嗎?快捷方式是:字單A和字單B,分別在EmEditor先"Delete Duplicate Lines"。(這一步很重要,要不然會把結果搞亂。)然後把兩個字單合併在一起,例如:
然後用“Delete/Bookmark Duplicate Lines (Advanced)”,勾選“Include All Lines of Each Duplicate”,再按“Delete"。(若用CSV模式來分欄,要勾選“Inspect Specified Columns Only”。)
這樣刪完之後,留下來的是版本A收而B沒收的字頭,或是版本B收而A沒收。很快就能比對兩個字單的字頭。
感谢wsg4560兄分享,你既然已经整理完了,我就不必再做了。
其实原来缺的字头多数就是类推简化字。你假如把类推简化字都弄完了,应该就齐全了。
我打开来看到是这样的,没有页码吗?
⺼
<!>
〇
<!>
ㄌ
<!>
㇏
<!>
㐀
<!>
㐁
<!>
㐄
<!>
阿弥陀佛修正的图片版已经很完善了,我在他的字头基础上修正的,主要是给文字版打基础,所以页码就没做。再从新做一来没有精力二来也没动力了。
《現代漢語詞典》第7版
索引 [suǒyǐn]
〖名〗把书刊中的项目或内容摘记下来,每条下标注出处页码,按一定次序排列,供人查阅的资料。也叫引得。
没有页码就不能称为“索引”。所以wsg4560兄分享的不是“汉语大字典字头索引”,而是关于《汉语大字典》文字版的美好计划。
期待wsg4560兄的文字版能做成功。
既然等app版,不修订了,把修订笔记贴出来,供大家参考。
《现汉7》文字版修订
删除词条:
缏子 (现汉5)
暴露文学(现汉5)
比例税制(现汉5)
不可同日而语(现汉5)
不人道(现汉5)
不在乎(现汉5)
菜霸(现汉5)
代言人(现汉5)
单口相声(现汉5)
登山运动(现汉5)
牴(现汉5)
牴触(现汉5)
牴牾(现汉5)
电子图书(现汉5)
丁克家庭(现汉5)
丁税(现汉5)
对簿(现汉5)
耳朵底子(现汉5)
番菜(现汉5)
犯憷(现汉5)
赶不上(现汉5)
赶得上(现汉5)
塔·dɑ
圪塔 (现汉5)
膈ɡè
膈应 (现汉5)
搆
搆陷(现汉5)
河汊子(现汉5)
红教(现汉5)
欢声(现汉5)
黄教(现汉5)
人儿(现汉5)
容光(现汉5)
谁谁(现汉5)
穗状花序(现汉5)
谿壑(现汉5)
谿卡(现汉5)
谿刻(现汉5)(现汉5)
斩假石(现汉5)
活罪(现汉5)
火酒(现汉5)
兼听(现汉5)
脚盆(现汉5)
接力赛跑(现汉5)
开房间(现汉5)
框图(现汉5)
郎猫(现汉5)
木船(现汉6)
木筏(现汉5)
奶疮(现汉5)
飘尘(现汉5)
球儿(现汉5)
睁眼瞎子(现汉5)
高跟儿鞋(现汉5)
乳浊液(现汉5)
魑魅魍魉(现汉2)
八字帖儿(现汉5)
半托(现汉5)
切肤之痛(现汉5)
切骨之仇(现汉5)
矮半截(现汉5)
牓(现汉5)
獘(现汉5)
盋(现汉5)
詧(现汉5)
椉(现汉5)
箠(现汉5)
旾(现汉5)
剉(现汉5)
搤(现汉5)
飜(现汉5)
彿(现汉5)
髴(现汉5)
瓌(现汉5)
嘑(现汉5)
衚(现汉5)
椾(现汉5)
硷(现汉5)
痾(现汉5)
崑(现汉5)
挐(现汉5)
羴(现汉5)
旹(现汉5)
禩(现汉5)
𬘖(现汉5)
紬(现汉5)
䲡
鿃(现汉6)
〖U+E675〗(私用区字):𮣲(U+2E8F2)
雰围(现汉5)
霍闪(现汉5)
忽米(现汉5)
不起眼儿(现汉5)
薯莨绸(现汉5)
西南非(现汉5)
撞骗(现汉5)
拷绸(现汉5):《现汉7》改为“黑胶绸”。
跗蹠(现汉5):《现汉7》改为“跗跖”。
公告牌(现汉5)
高枕(现汉5)
铜筋铁骨(现汉5)
偷奸取巧(现汉5)
不织布(现汉5)
花儿匠(现汉5)
紧身儿(现汉5)
𫎬 [Gàn]
𫏋 [<繁体>蹻
𥛱
謌
䌷
鉏(chu2)
䌷绎(现汉5)
颿
屹(ge1)
㟷
屹㟷(删除全条)
圪垯 (删除“适用于以上义项也作圪塔、屹㟷。”)
删除“㬊”字重复的资料。
删除“䇲”(同“策”。)部分资料。
删除“俛”fǔ资料。
去除字头“儿”字的格式
𥅻盹儿
修改词头
溟濛:溟蒙(《现汉5》规范词形为“溟濛”,《现汉7》改作“溟蒙”。)
打破沙锅问到底:打破砂锅问到底
板寸:板儿寸
下工夫:下功夫
褝(日本汉字):{衤单}
圪𫄤:纥𫄤
𫘧駬:𫘧𱅋
𫛸𫛞:𫛸𱉔
筹划(筹画):加括号内字
刻画(刻划):加括号内字
𨱑同“簧”。 -->𨱑旧同“簧”。
𥆧 [<繁体>𣋆:𥆧 [<繁体>瞤
𫄠 [<繁体>䋎:“𫄠”当作“𬘜”。
𫣊 [<繁体>𫣊:𫣊 [<繁体>僾
𬬱:增加繁体字“釿”。
𬭤:增加繁体字“鍭”。
㚢:人名用字——㚢:用于人名。(“人名用字”改成“用于人名”的,应该还有一些,没全改)
茜:人名用字——茜:用于人名。
㮾:蓈梨——㮾:㮾梨
䩄:见903页〖腼腆〗。——䩄:见下。
少实斋
多虚不如少实
我在词典发现以下错误
现代汉语词典(第7版).mdx CRC32 89a4cc9c
(以下修改默认忽视 •∥- 等字符)
拼音错误
- 学堂 xuátánɡ xué táng
- 学区 xuáqū xué qū
- 的士 dī dī shì
- 汞溴红 ɡǒnɡxiùhónng] gǒng xiù hóng
- 顺溜 snùn•liu] shùn liu
- 搠 sbuò shuò
- 柊叶 zhōnɡɡyè zhōng yè
- 辒辌 wūnliánɡ wēn liáng
- 朝乾夕惕 zhāoɡqián-xītì zhāo qián xī tì
- 血洗 xuùxǐ xuè xǐ
- 海纳百川 hǎinàbhǎchuān hǎi nà bǎi chuān
- 心酸 xīm∥suān xīn suān
- 马锅头 ɡuōtóu mǎ guō tóu
- 下议院 xiàyuàn xià yì yuàn
- 血书 xuùshū xuèshū
- 个儿顶个儿 ɡèrdǐingɡèr ɡèr dǐng ɡèr
- 羝 dīshì dī
- 下存 xiàacún xiàcún
编辑错误
这里多了个右括号
- 繁体狽 ) 繁体狽
谢谢你的校对。
补充一个拼音错误:
说长道短:sbuōchánɡ-dàoduǎn
2022.02.02版本的链接没放出么
只是时间没改而已。不过shaoshi兄的校对没有加上。
我給忘了。一會兒看看弄一下。
楼主辛苦了!补充一个拼音错误:
熏陶xūntáo