现代汉语词典第7版-2022.02.02 及由startle美化修改的版本

@shaoshi 砍就砍了,只是建议。有各位高人出手,我就乐享其成了。
@MeigenChou 期待app版!

@MeigenChou
MeigenChou兄既然已经成功抓取了《现汉7》app的权威资料,那我就不必再整理文字版了。企盼兄台的大作面世。

@Quantus
@sxingbai
我改变计划,不弄《现汉7》了,准备整理一下《汉语大字典》的索引。

更大手笔,期待!对于整理这个,我自己觉得无从下手,难道一个个字去核对?

《汉语大字典》第2版的索引,因为没有别的版本可以比对,只能一个一个看。不过只有四千多个X,要改完应该不是问题。

不是X的地方,只能暂且假设是正确的,使用时如果发现有错误,再改吧。

引得市的《汉语大字典》索引应该是完整精确的,不过现在收费,看不到。

1 Like

老兄有tsiank当年整理的《汉语大字典》字头表吗?对于X大部分他都给出了图片,这类字也许请擅长造字的@Mastameta兄来处理更好。

没见过你说的这个字头。有图像版,不必用抽出来的字头。

不赞成造字,宁可用{}拼字。我认为私用区自造字是资料交换的大患。

我收了一个《汉语大字典》二版图像索引版,一个《汉语大字典》二版文字版。

汉语大字典文字版

《汉语大字典》二版图像索引版

汉语大字典(第二版)(电脑版).mdx 1.57g
汉语大字典(第二版)(电脑版).mdd 3.91mb

没记录这个图像版的下载位置,搜寻一下,还是不确定我这个版本是哪个。可能是第一个。

所以不是没有别的版本,只是我没比对过所有版本,不知道是否同源。

1、2的索引是否同源,你研究过吗?3似乎是第一版,就不管它。

1.汉语大字典(第二版)(图片格式)for mdict.zip (1.58g)

2.Index of /尚未整理/06mdict/汉语大字典(第二版)电脑切边/
汉语大字典.mdd 1.27g
汉语大字典.mdx 1.59mb

3.Index of /尚未整理/集合/文字词典/字,词,句,篇工具书/1、字/《汉语大字典》(汉语大字典编辑委员会编纂,四川辞书出版社、湖北辞书出版社1986年版。)/
汉语大字典检索.EXE
汉语大字典(八卷本).pdf

我没有比对过不同版本的词头,过去我不怎么用图像版。但如果没有检索表,我还是传上来,你看一下,我觉得可能会有用,那些X字他都放在待定词头那个表里。
汉语大字典第二版(待定字头表)by tsiank20140415.zip (10.6 MB)
刚才看了一下文字版,发现同类错误31处,以前也改过另一类错误,但忘了是啥了。

感谢费心,研究一下。

不太明白你的意思。

1 Like

APP已经抓完了?可以放出來,一伙人在外面白忙呼幾年了。重複勞動就是浪費生命啊

1 Like

我個人覺得tsiank的漢語大字典mdx做法太依賴私有區字。比如說,“𧆙”字頭查不出來,因為從第一版到第二版,這個字頭字形變了,第二版字形只有私有區字能表現。

第一版(3340頁),字形右邊是 “口糸” — 這個字有標準碼。
image

第二版(3561頁),釋義是完全一樣的,但字頭字形改成 “尸糸” — 這個字形沒有標準碼,mdx用全宋體私有區字。

既然兩個釋義是一模一樣,他們當然是同一個字,理論上,不管mdx用標準字(口糸)或是私有區字(尸糸),都應當可以查到第二版3561頁字條。我後來採取的做法是兩個字(標準字跟私有區字)都標上來當字頭。私有區字標紅色。




當然,也可以用跳轉來解決這個問題,但區別是界面列出所有可能性的字形更好用:使用者可以選擇性繼續查字;光用私有區字,很難跟別的mdx通用。

也就是說,如果有接近的標準字,應當列出來,不要光用私有區字。能正常查字最優先,單選一個最準確準確的字形並不要緊。

3 Likes

词典软件本身很难支持这些私有区的字,第三方的中华书局的字体和WFG那个部件检索的私有区字符编码也不通用,这些私有区的词头基本上只能浏览无法查询,能校对成标准字或者字形接近的标准字就很方便了,实际字形可以在词条里图片显示,或者单独提取出对应字体来特别注明,这样既能保证能查全,又能使用标准字体,方便在多个软件中交换使用。

3 Likes

校对这步,不知道有没有快捷的方法?

1 Like

@abs
#213的帖子,我完全同意你的觀點。

關於“校對這步”,我當做不是針對漢語大字典(他的狀況較特別),而是廣泛的疑問。這一步可以分兩節,一個是私有區字跟標準字的關係,一個是標準字碼跟(標準)異體字的關係。後者,除了《中華大字典》和《教育部異體字字典》這種工具以外,也可以從各種mdx用正則抽出“A同B”、“A通B”,“一作B”模式,積累一個@LINK資訊庫。另外的補充:用心的人作mdx,他們的@LINK值得收藏,例如tsiank和WFG(對康熙字典和說文解字)作的跳轉,都應該存下來或是過濾而存。

關於私有區跟標準字的關係,上面講的@LINK也會含有這種跳轉。不得已時,我只能笨笨得在部件檢索去掉一個部件重新搜,或是開始替代部件,用舊體、新體、異體、訛形關係來替代部件,然後再參考異體字或@LINK資料。這不是你說的”快捷”方式,但這個過程若有成果,可以順便寫個(私有區跟標準字的)@LINK跳轉,同時收藏這個信息,以後能用。

2 Likes

@abs,哦,想起來,你原來問的是校對兩個字單嗎?快捷方式是:字單A和字單B,分別在EmEditor先"Delete Duplicate Lines"。(這一步很重要,要不然會把結果搞亂。)然後把兩個字單合併在一起,例如:
image

然後用“Delete/Bookmark Duplicate Lines (Advanced)”,勾選“Include All Lines of Each Duplicate”,再按“Delete"。(若用CSV模式來分欄,要勾選“Inspect Specified Columns Only”。)

這樣刪完之後,留下來的是版本A收而B沒收的字頭,或是版本B收而A沒收。很快就能比對兩個字單的字頭。

3 Likes

汉语大字典字头索引.txt (635.7 KB)
上传一个我整理的汉语大字典字头索引,应该是全的而且加入一部分大字典所未收的异体字及类推简化字。仅供参考!

3 Likes

感谢wsg4560兄分享,你既然已经整理完了,我就不必再做了。

其实原来缺的字头多数就是类推简化字。你假如把类推简化字都弄完了,应该就齐全了。

我打开来看到是这样的,没有页码吗?


<!>

<!>

<!>

<!>

<!>

<!>

<!>

2 Likes

阿弥陀佛修正的图片版已经很完善了,我在他的字头基础上修正的,主要是给文字版打基础,所以页码就没做。再从新做一来没有精力二来也没动力了。

《現代漢語詞典》第7版
索引 [suǒyǐn]
〖名〗把书刊中的项目或内容摘记下来,每条下标注出处页码,按一定次序排列,供人查阅的资料。也叫引得。

没有页码就不能称为“索引”。所以wsg4560兄分享的不是“汉语大字典字头索引”,而是关于《汉语大字典》文字版的美好计划。

期待wsg4560兄的文字版能做成功。

1 Like

既然等app版,不修订了,把修订笔记贴出来,供大家参考。

《现汉7》文字版修订

删除词条:

缏子 (现汉5)
暴露文学(现汉5)
比例税制(现汉5)
不可同日而语(现汉5)
不人道(现汉5)
不在乎(现汉5)
菜霸(现汉5)
代言人(现汉5)
单口相声(现汉5)
登山运动(现汉5)
牴(现汉5)
牴触(现汉5)
牴牾(现汉5)
电子图书(现汉5)
丁克家庭(现汉5)
丁税(现汉5)
对簿(现汉5)
耳朵底子(现汉5)
番菜(现汉5)
犯憷(现汉5)
赶不上(现汉5)
赶得上(现汉5)
塔·dɑ
圪塔 (现汉5)
膈ɡè
膈应 (现汉5)

搆陷(现汉5)
河汊子(现汉5)
红教(现汉5)
欢声(现汉5)
黄教(现汉5)
人儿(现汉5)
容光(现汉5)
谁谁(现汉5)
穗状花序(现汉5)
谿壑(现汉5)
谿卡(现汉5)
谿刻(现汉5)(现汉5)
斩假石(现汉5)
活罪(现汉5)
火酒(现汉5)
兼听(现汉5)
脚盆(现汉5)
接力赛跑(现汉5)
开房间(现汉5)
框图(现汉5)
郎猫(现汉5)
木船(现汉6)
木筏(现汉5)
奶疮(现汉5)
飘尘(现汉5)
球儿(现汉5)
睁眼瞎子(现汉5)
高跟儿鞋(现汉5)
乳浊液(现汉5)
魑魅魍魉(现汉2)
八字帖儿(现汉5)
半托(现汉5)
切肤之痛(现汉5)
切骨之仇(现汉5)
矮半截(现汉5)
牓(现汉5)
獘(现汉5)
盋(现汉5)
詧(现汉5)
椉(现汉5)
箠(现汉5)
旾(现汉5)
剉(现汉5)
搤(现汉5)
飜(现汉5)
彿(现汉5)
髴(现汉5)
瓌(现汉5)
嘑(现汉5)
衚(现汉5)
椾(现汉5)
硷(现汉5)
痾(现汉5)
崑(现汉5)
挐(现汉5)
羴(现汉5)
旹(现汉5)
禩(现汉5)
𬘖(现汉5)
紬(现汉5)

鿃(现汉6)
〖U+E675〗(私用区字):𮣲(U+2E8F2)
雰围(现汉5)
霍闪(现汉5)
忽米(现汉5)
不起眼儿(现汉5)
薯莨绸(现汉5)
西南非(现汉5)
撞骗(现汉5)
拷绸(现汉5):《现汉7》改为“黑胶绸”。
跗蹠(现汉5):《现汉7》改为“跗跖”。
公告牌(现汉5)
高枕(现汉5)
铜筋铁骨(现汉5)
偷奸取巧(现汉5)
不织布(现汉5)
花儿匠(现汉5)
紧身儿(现汉5)
𫎬 [Gàn]
𫏋 [<繁体>蹻
𥛱


鉏(chu2)
䌷绎(现汉5)

屹(ge1)

屹㟷(删除全条)
圪垯 (删除“适用于以上义项也作圪塔、屹㟷。”)
删除“㬊”字重复的资料。
删除“䇲”(同“策”。)部分资料。
删除“俛”fǔ资料。

去除字头“儿”字的格式
𥅻盹

修改词头
溟濛:溟蒙(《现汉5》规范词形为“溟濛”,《现汉7》改作“溟蒙”。)
打破沙锅问到底:打破砂锅问到底
板寸:板儿寸
下工夫:下功夫
褝(日本汉字):{衤单}
圪𫄤:纥𫄤
𫘧駬:𫘧𱅋
𫛸𫛞:𫛸𱉔

筹划(筹画):加括号内字
刻画(刻划):加括号内字
𨱑同“簧”。 -->𨱑旧同“簧”。
𥆧 [<繁体>𣋆:𥆧 [<繁体>瞤
𫄠 [<繁体>䋎:“𫄠”当作“𬘜”。
𫣊 [<繁体>𫣊:𫣊 [<繁体>僾
𬬱:增加繁体字“釿”。
𬭤:增加繁体字“鍭”。
㚢:人名用字——㚢:用于人名。(“人名用字”改成“用于人名”的,应该还有一些,没全改)
茜:人名用字——茜:用于人名。
㮾:蓈梨——㮾:㮾梨
䩄:见903页〖腼腆〗。——䩄:见下。

少实斋

多虚不如少实

5 Likes

我在词典发现以下错误

现代汉语词典(第7版).mdx CRC32 89a4cc9c

(以下修改默认忽视 •∥- 等字符)


拼音错误


  • 学堂 xuátánɡ xué táng
  • 学区 xuáqū xué qū
  • 的士 dī dī shì
  • 汞溴红 ɡǒnɡxiùhónng] gǒng xiù hóng
  • 顺溜 snùn•liu] shùn liu
  • 搠 sbuò shuò
  • 柊叶 zhōnɡɡyè zhōng yè
  • 辒辌 wūnliánɡ wēn liáng
  • 朝乾夕惕 zhāoɡqián-xītì zhāo qián xī tì
  • 血洗 xuùxǐ xuè xǐ
  • 海纳百川 hǎinàbhǎchuān hǎi nà bǎi chuān
  • 心酸 xīm∥suān xīn suān
  • 马锅头 ɡuōtóu mǎ guō tóu
  • 下议院 xiàyuàn xià yì yuàn
  • 血书 xuùshū xuèshū
  • 个儿顶个儿 ɡèrdǐingɡèr ɡèr dǐng ɡèr
  • 羝 dīshì dī
  • 下存 xiàacún xiàcún

编辑错误


这里多了个右括号

  • 繁体狽 ) 繁体狽

7 Likes