现代汉语词典第7版-2022.02.02 及由startle美化修改的版本

纠错一条,“澂”词条下把“人名”打成了“人民”

1 个赞

建议楼主统一这个小黑点的格式“

A《孟子•尽心下》
B《史记·商君列传》
建议把A的“•”都替换为B的“·”。A的“•”是Unicode,麻烦的东西。

另外,发现一个错字:

强基固本 qiánɡjī-gùběn
筑牢基础,巩固根本:坚持群众路线才能为国家发展~。也说固本强基、强本国基。
“强本国基”当作“强本固基”。

3 个赞

真的不能想当然。原以为图像版更可靠一些,文字版更方便一些,就这个词头比较来看,反而是图像版不靠谱,除了那些冷僻字,大都是图像版词头错了或者少了。文字版暂时只发现“下功夫”误为“下工夫”。

2 个赞

OK, 之前发到隔壁好多年都没人反馈,这里一下就找出来了。不过6版是旧版本就不管了,我把这些词条加到我的7版去

3 个赞

《现汉6》图像索引版是MeigenChou兄编的吗?我觉得不错,挺有用。

现在没有《现汉6》的文字版,我会把掉的词条补进自己的Access资料库,还是很有用的。

有官方数据的时候,用文字版更方便一些。没有官方数据,用图片版参照会更放心一些。词头错了或者少了,这些都小问题,可以再修的。

1 个赞

最初是用第5版文字版为基础手动校对第6版的文本,再导出词头制成6版图片版索引。不过6版文字我只能说不堪用,后面校对7版的时候仍发现6版有许多错误,且7版校对了几十页的时候楼主发布了本帖,我就没继续校对了。

按照时间进度来说8版应该在路上,我在考虑直接抓某“官方”的第7版还是等8版出来。

3 个赞

别等了,16年出的第7版书,19年出的官方第7版app,第8版书都还没有,官方app估计再等4年。

图像版的好处在于能对比图像,但是词条假如不准确,检索不到,可用性就会大打折扣。不过对比既然已经做出来了,把对比看一遍,该订正的地方订正,就会很好用。

图像版和文字版的词条假如是协调统一的,在Goldendict中就可以同时检索出来,上下对比,双剑合璧,威力倍增。复制引用文字之前,再看一眼图像就行。

3 个赞

新华12书和APP几乎同步发行,现汉8问题不大,两年内有可能看到。反正7版APP我也没账号,以前有个号被封了(狗头

2 个赞

稍等,刚查了下第6版,这些词真的存在吗?

我没有复核第6版,只是看到资料库里第2版或第5版有,楼主的第7版有,所以推论第6版应该有。而且这是随手做的笔记,可能弄错了。

我只看了一下Access排查中的熟语类,找《现汉7》新增的熟语,还没看一般词语。这只是印象式的笔记的部分举例,如果弄错了,欢迎纠正,以免误导书友。

楼主的第7版有很多是把《现汉7》隐藏的资料提取出来做的索引词头,别的版本的《现汉7》不会有这么多词头。

下址有一个《现汉5》加了《现汉7》词头的文本,可以参考:

《现代汉语词典》(第7版)
XDHYCD7th.txt
格式調整 by 尹冰
https://github.com/CNMan/XDHYCD7th

复核资料:

1.铜筋铁骨

《现汉5》
[铜筋铁骨] tóngjīntiěgǔ 比喻十分健壮的身体。
按:《现汉6》有“钢筋铁骨”,没有“铜筋铁骨”。

2.偷奸取巧

《现汉5》
偷奸取巧]tōujiānqǔqiǎo
用狡猾的手段使自己不费力而得到好处:他这人专会~,干事全凭一张嘴。
按:《现汉6》将“偷奸取巧”改为“偷奸耍滑”,解释不变。

3.魑魅魍魉

《现汉2》
魑魅魍魉 chīmèi wǎngliǎng <部首> 鬼 | <笔画> 1
比喻各种各样的坏人。
按:《现汉2》(纸版在页167)有“魑魅”、“魑魅魍魉”词头,《现汉5》把“魑魅”和“魑魅魍魉”都降级归于“魑”字下,《现汉6》把“魑魅”重新提上来变词头,“魑魅魍魉”放在“魑魅”下。《现汉7》其实和《现汉6》一样,没有回归《现汉2》的传统。

4.切肤之痛

《现汉5》
切肤之痛 qièfūzhītòng 切身感受到的痛苦。
按:纸版《现汉5》在1102页,《现汉6》删掉了这个词条,《现汉7》没有回归《现汉5》。所以《现汉6》、《现汉7》都没有“切肤之痛”。

5.不可同日而语

《现汉5》
[不可同日而语]bùkětóngrìéryǔ 不能放在同一时间谈论,形容不能相比,不能相提并论。
按:纸版《现汉5》在114页。《现汉6》、《现汉7》都没有。

6.无可奉告

《现汉6》
无可奉告 wúkěfènggào
没有什么可以告知的(拒绝回答问题的婉辞,多用于外交或公众场合):事关机密,~。
按:这个是《现汉6》新加的词条,在《现汉6》页1374、《现汉7》页1383。

7.睁眼瞎子

《现汉5》
[睁眼瞎子] zhēngyǎnxiā·zi 比喻不识字的人;文盲。也说睁眼瞎。

《现汉6》、《现汉7》
睁眼瞎 zhēnɡyǎnxiā
<名>比喻不识字的人;文盲。也说睁眼瞎子。

结论:MeigenChou的《现汉6》图像版索引只掉了“无可奉告”,其他的是《现汉6》自己删改的。楼主的《现汉7》保留了《现汉5》的资料,例如“切肤之痛”,方便使用,倒也很好,不过建议加一个小注,说明这是《现汉5》的资料,《现汉7》已经删掉。

由此可见《现汉7》的图像版必不可少。iefm83兄的《现汉7》图像切词版只要修改了索引,和楼主这个文字版正好搭配。

iefm83兄乃武林高人,刚分享了《汉语大词典》2.0光盘版的原汁原味mdict文字版(未作繁简文字转换,有页码、插图)。

3 个赞

呵呵,我在上面提到的“XDHYCD7th.txt”看来不错啊。我选几行贴出来:

拟在“华宇拼音输入法论坛”网友wangyanhan制作的《现代汉语词典》第5版全文TXT基础上更新到《现代汉语词典》第7版
项目地址:(略,就是上面帖子的链接)
欢迎各路网友参与、协作修订
原则上字、词头只增不减(即不删除新版删掉的字、词头),字、词头释义合并除外
备用黑色圆圈数字:❶❷❸❹❺❻❼❽❾❿
备用上标数字:⁰¹²³⁴⁵⁶⁷⁸⁹
备用下标数字:₀₁₂₃₄₅₆₇₈₉
备用汉语拼音小写:āáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜêê̄ếê̌ềm̄ḿm̀ńňǹẑĉŝŋ
备用汉语拼音大写:ĀÁǍÀŌÓǑÒĒÉĚÈĪÍǏÌŪÚǓÙÜǕǗǙǛÊÊ̄ẾÊ̌ỀM̄ḾM̀ŃŇǸẐĈŜŊ
━━━━━━━━━━━━━━━
(略)
【驾到】jiàdào〈动〉敬辞,称客人来到。
【驾鹤西去】
【驾鹤西游】
【驾临】jiàlín〈动〉敬辞,称对方到来:敬备菲酌,恭候~。
(略)
━━━━━━━━━━━━━━━━
附:词典中非Unicode汉字(图片字)
━━━━━━━━━━━━━━━━
现用替代字【駜】*原图片字[马+必]
现用替代字【鱍】*原图片字[鱼+发]
(略)

还没解释的就是新增的词头,不一定是《现汉7》新增的,《现汉6》可能已经有了。

这个文本是Utf 8,转存为Utf 16后,就可以导入Access。

导入Access后,我用“不匹配”query做了两个新的对比。

compare3.rar (20.5 KB)

compare3.rar内容
xh7only.txt:“XDHYCD7th.txt”中没有解释的、新加的《现汉7》的词条。
xh5-not-xh6.txt:“XDHYCD7th.txt”中有解释的《现汉5》词条,但MeigenChou兄的《现汉6》没有。

《现汉5》
斲轮老手
zhuólúnlǎoshǒu
《庄子·天道》:“是以行年七十而老斲轮”(斲轮:砍木头做车轮)。后来称对某种事情富有经验的人为“斲轮老手”。
少实斋按:《现汉2》标准词形作“斲轮老手”,《现汉6》、《汉语规范》作“斫轮老手”。

1 个赞

发现不知为何,现汉“鬷”词条的释义二前面多注了一遍音,纸质版也是如此,是有什么讲究么
image

1 个赞

姓氏或者地名大写

3 个赞

原来如此,我看别的词典都没有,还以为是错了 :joy:

1 个赞

这是凡例里面就有的东西

1 个赞

不用费那个工夫了,你们要做的我早先一步做了。词条挖改、增补的工程我新春过后就着手进行了,小半年过去,完成得差不多了。我先用abbyy文档编辑器批量裁剪网上流布已久的现汉第七版pdf文档页面,拆二为一(将两排并列文字内容变作一排),最后拼连在一起,而后再用abbyy的橡皮擦功能刨除掉单音节词条内容,仅保留复音节词条内容。经过这么处理版式趋于简单,为后续引入传说中的大杀器——扫描全能王打下基础。全能扫描王对版式简单、中文为目标语种的文档的OCR转换准确率远高于abbyy。这款app安卓端比电脑端对使用者更为友好,我全程都是用手机来执行文档扫描复制操作。导出OCR文档后还仅是粗胚而已,再与坛友的自制第七版进行对校,最终改订字符数在三万多左右(涵盖简单的标点符号、标准词形改换),不过为便于核校删落了词条标注拼音(ocr转换会出现拼音调号脱落的问题,造成大量轻声音),是一大缺失。

5 个赞

“泥瓦匠萨奇”兄很有工匠精神,佩服。

拆二为一(将两排并列文字内容变作一排),最后拼连在一起

这个你怎么做的,用什么软件?愿闻其详。

一页有两栏的情况,会影响ocr,不过影响不算太大。

一页有四栏,这种情况ocr效果一般不好。假如每页先切成abcd四个图像再ocr,应该会好得多。要让电脑自动这样切,应该用什么软件?向兄台请教。

1 个赞