汉语大词典光盘版2.0,另附3.0光盤版

想做?我可以搭

2 个赞

这个2.0简体版相当神奇,对比了知网的版本,同样缺的书证,这版本居然有。汉语大词典的出版社还有专门提供学校图书馆订阅的机构版,不知道质量怎么样,需要学校有订阅才能看到。

https://www.hanyudacidian.cn/

2 个赞

我说这话是过火了,此版的作者很用心,注意到汉大对多字条目的第一个字如果多音时标有序号,与多音字的序号一致,所以做了相应批量处理,但除了第一个字外,其它的多音字就完全是电脑自动注音。
下面截图是汉大对多字条目的注音原则(请特别注意第2条):


作者的出发点是好的,但因为夹杂着许多错误,所以为害不小,还不如没有。

发现所有电子版本的汉大,都把“骯”的释义2的音写成了kăng(应该是āng),除了18版(大概是人工调整过),所以这个2.0版本的自动注音,把“骯2髒”也注成了“kǎnɡ zǎnɡ”。扫描版没有这个问题。

5 个赞

不包括订补二。你有订补的纸书,恰好我有一处疑问,麻烦你查一下。在心部中“恰”和“恨”之间的那个字是不是“㤝”,我去年结合一个扫描版订正过,后来以为没用,把扫描版删了,昨天修改时,对这个有点怀疑。先谢了!

1 个赞

深有同感。因为习惯不好,发现问题修改或补充时没做记录,这样一方面如果带来新问题时不容易分步撤销,最后可能只得推倒重来;另一方面遇到别人的的版本也不好整合。

想法很好。如果要开始,现在第一步是确定一个目前相对最好的底本,然后新建一个帖子,大家都针对这个版本找问题,等几乎没有问题了,再着手修订。关键是发现的问题以及所做的修改要做记录,也可多保留历史版本。

2 个赞

我去年结合一个扫描版订正过,后来以为没用,把扫描版删了。

有扫描版居然删了?太模糊吗?暴殄天物啊!

在心部中“恰”和“恨”之间的那个字是不是“㤝”?

没错,是“㤝”,在867页。

哈哈,没有拼音索引,很难查字啊!

抱歉,我本来要对你说电子书上这个字的页码867(可能与纸书不一致),但忘了。
我怀疑是因为“㤝”在订补中是补义,意思是“方言。跌跌撞撞”,另外在各种电子版本中都查不到这个字。这下放心了。再次感谢!

1 个赞

看来电子书的页码和纸本是一致的。也许应该提取电子书的页码,方便对比纸本。这个订补的查字法感觉有点古怪,不好查。

用2.0光盘(真的光盘,不是mdict)复核了资料,确实如此,光盘的注音错了。

12\0405.png (图像本)

光盘本截图

这种权威词典,很怕那种用正则批量修改的。看起来很好,但搞不清楚到底修了哪里,有没有修错的地方,实在不敢放心用。在良好的底本上,慢慢细修,提供每一条修改记录,会安心很多。

关键是发现的问题以及所做的修改要做记录,也可多保留历史版本。

Wiki的好处就是能够保持历史版本,可以还原。Google document也能保持历史版本。

假如用Wiki,重要的是加笔记,说明修改依据。那么,后来的人才容易判断前人改得对不对。

恭迎hua站长大驾。

呵呵,我不敢说我想做,因为感觉这个工程像愚公移山。

我只是好奇,问一个技术问题,这个论坛软件支持Wiki吗?还是得在站外另外找地方建Wiki?

1 个赞

@endnote

endnote的想法是搭建Wiki,有一个主编,统编大家的修改再发布新的mdict词典。

这样很难,因为主编的工作量太大,谁敢当主编啊!

假如有Wiki可用,就用《维基百科》的分布式方法,每个人都有编辑权,就很简单。

在Wiki中建立《汉语大词典》的每个词条:

【词头】

解释

// (某种条目终止符号)

假如某位书友比对图像本,对某条做了增补,Wiki会记录修改者名字、原有版本及新版本,编辑者再加个小注,说明修改依据就行。

这样的工程也许在2023年《汉语大词典》第2版出来后,都还做不完。

但是没有关系,2023年后就补充第2版的新词条。

@sxingbai

我还没研究楼主这个光盘2.0版本,但我感觉用这个做底本很好,有页码,方便校对。而且作者已经根据图像本做过一些增补的工作,只需要复核和扩展。

注音有错误不是问题,只需要改正注音的错误。

没有主编,怎么发布新版本?

各人可以导出最新的资料,自己做mdict。或者看别人发现什么错误,在自己的文本上增补。

不导出资料也没关系,做一个Wiki内检索,直接用。

用论坛的帖子做这种编辑的讨论,确实不方便。用Wiki会容易得多。

1 个赞

能支持。服务器上多跑一个Wiki服务即可,这样还可以用本论坛的用户数据库。

软件方面hua大之前搞过一个在线版mdx。Wiki功能再梳理和增强一下,可考虑采取以下流程:
基于可能的范围太广有碍观瞻的担心, 发起人 可自己选择本论坛的部分用户参与(类似发个内部电子邮件),来查看、提issue(如使用某某版本、发现某某问题),发起人自己负责逐一审定(参与者可回issue共同讨论),汇总发布阶段性的MDX成果(每个新版本自动列出已采纳的issue)。
如果发起人要保持低调,可使用目前本论坛的匿名贴功能。

词典的参与者不会很多的,大多数群众能摆脱松鼠症、好好使用词典就不错了。
发起人、主持人的主要作用是定期发布一个大众版本。
不过,除了发起人外,如Wiki 能让其他参与者也可以保留和制作自己的版本就更好了(即自己决定采纳或不采纳哪些issue,然后生成相应的mdx和changelog)。

这样一来,说是Wiki ,我怎么感觉有点象Git 了:)

1 个赞

汉语大词典有官方app,有学校机构版订阅,没人考虑从官方这边提取数据吗?

wiki没用过,听起来很不错。
初步打算,先把订补部分剔除,保留有页码和没页码的所谓2.0的部分
然后把有页码的排序,没页码的想办法找到页码插入
再然后……

给这个2.0版加上对应页码的图片就够用了。

这个官方app有注音,这个注音应该不是自动生成的吧?前一段搞过团购价好像一年18元,可惜错过了。现在大概一月18元,也可以接受。但只是粗看一下,抓取应该难度不小,恐怕得老大出手才行。
加图片很好加,版本里有现成的链接。
说到够用,就让人泄气。有时候就想,整天坐着弄这,实际能用到多少啊,补的修的可能永远都不会用上,有这功夫还不如多翻翻书呢。这就叫癖好吧!知道哪里有错误心里就像吃了苍蝇。

1 个赞

那些书证纸书上有吧?app上有吗?
其实方正的电子化和纸书很接近,我抓了一部分,但因为反爬,太慢,所以停下来了。
app的抓取还是有希望的,但也得有比较完整的词头才行啊。
机构版的app其他人能用吗?哈哈