汉语大词典光盘版2.0,另附3.0光盤版

核查这个版本标有页码的单字条有18543,有页码的多字条目有343497;无页码的单字4182,无页码的多字187,大多应该是纸书没有,而光盘增加的。

1 个赞

就我个人的应用来说,我用光盘搭配图像版和ocr文字(导入Access检索),已经绰绰有余。在Goldendict中检索mdict,只是第二选择,现在有2.0文字版加上图像版mdict,再配上订补,也够用了。只需要用新找到的清晰图像再做一次ocr,不需要更多资料。

计算时间成本的话,自己做词典肯定是不值得的,买现成的app便宜得多。

我自己做Access资料库而不用现成的app,是为了集成资料,可以更切合自己的检索需要。

还有,这是一个学习的过程,写资料库可以学编程,校改电子书就是在读书。但是我很少校改完整本书,一般上就是随用随改。

你假如去编Wiki,可以另外开帖子征询新发现,我假如发现新的错误,会跟帖回复。

查阅资料,弄清了《汉语大词典》几个版本的差异,供大家参考:

1.《汉语大词典》2.0光盘版:1997年,汉语大词典出版社和香港商务印书馆联合推出了《汉语大词典》光盘版1.0,共收入18,000个字头。2003年升级到2.0,共收入18,013个字头,336,385条复词,增加了861,956条例证,比1.0版完善多了,但仍然未能涵盖纸质版的所有内容。纸质版共收单字头22,300左右,2.0版少收4200多字;纸质版收复词约375,000条,2.0版少收约40,000条;纸质版配有插图2000余幅,2.0版只有515幅,只是纸质版的四分之一。

2.《汉语大词典》3.0繁体版:2007年,香港商务印书馆又出版了《汉语大词典》繁体单机3.0版,共收入18,014个字头,336,706条复词,内容上增补不多,主要是在易用性上增加了屏幕取词、右键菜单、单字字头真人普通话发音等功能。这一版本是无法在简体中文Windows系统下直接使用的。

3.《汉语大词典》2.0网络版:1999年上海世纪出版集团成立后,前后投资几百万元,开发、制作《汉语大词典》网络版。2000年7月,易文网推出《汉语大词典》1.0网络版。2004年6月,《汉语大词典》2.0网络版上网试运行;后续将陆续推出2.1版、2.2版、2.3版……,增加包括复词注音、单字发声等目前正在制作的内容和功能。2.0网络版内容上完全依据纸质版,没有增删,版面上保留了纸质版繁体字与简体字并用、正体字与异体字并用、某些专名加专名线等特殊格式,这是迄今为止最接近纸质版的电子版本;收有29,937个汉字,346,067条词语,23,444条成语和其他熟语;共有515,668项释义,894,981个例证。

11 个赞

楼主的版本确实令人惊喜,存在的问题较少。但读音问题还很突出,尤其是多音节词除首字以外的多音字,但纸版对于这些大多都用括号加注,如果老兄ocr后能用正则提取括号的相关内容,即使有错误,也可把多音字范围大大缩小。

楼主这个2.0的底本应该是光盘版的,书证做了补充,但有些错误和光盘版是一样的,如之前提到过的「引」字的义项错乱问题。

问题在于ocr无法正确辨认所有括号。假如先人工修补这些括号,又是大工程。

想用【】提取词条,也会碰到同样的问题。【】无法完全准确辨认。

假如【】完全准确辨认,我用自己的程式就可以提取词条与解释,或词条与页码。

依我个人的浅见,不必管这个版本的注音,只要记得注音不可靠就行。注音可以查别的词典,查到了再改这个版的注音,随用随改。

sxingbai兄是完美主义者吧。我坦然接受缺憾和不完美。

晚些wǎn siē

这本词典真神了,自动注音有这功能?这是我们本地方言读言呀。这中间有什么线索没有?

1 个赞

图片

这一次倒是纸书错了!到底这个词应该怎么写,搜例证,百度必应无果,搜谷歌,有两处:

### 黃司使誄- 维基文库,自由的图书馆
https://zh.wikisource.org › wiki › 黃司使誄

2019年4月11日 — 倚閭何見見子孤柩素馬入門 ,為君躓踣。昔聞鼓角,震蕩江風。今來丘隴,寂寞山松。人壽百年,誰能獨久。惟吾與子,念其速朽。知我猶辱,毀我為親。

### 湘绮楼诗文集 一 - Google 图书结果
https://books.google.com › books

(清)王闿运 · 2008 · ‎Literary Collections
倚闾何见 ? 见子孤柩 , 素马入门 ,为君踶踣。昔闻鼓角,震荡江风,今来丘陇,寂寞山松。人寿百年,谁能独久?惟吾与子,念其速朽。知我犹辱,毁我为亲,显晦之迹, …

大概写法还是可靠的,只是归错了属字

1 个赞

每次查《汉语大词典词目音序索引》都想吐槽:“难查啊!”“晚”字为什么分开在这么多地方呢?

《汉语大词典词目音序索引》1110a
晚些 wǎn sā 5-744b

《古汉语时间范畴词典》
晚些 wǎn sā
晚上。年老爹娘无倚靠,早起 ~望顾照。(《清平山堂话本·快 嘴李翠莲记》)

《四川方言词源》
晚些 wan53xi55
晚上。元佚名《渔樵记》第二折: “我儿也,休向嘴,晚些下 锅的米也没有哩。”《水浒传》第二十五回: “你今日晚些归去,都 不要发作,也不可露一些嘴脸,只做每日一般。”《喻世明言》卷十 五: “早起看浮云陪晓翠,晚些见落日伴残霞。”

2 个赞

应该是“踼踣”,意同“踼跌”,犹跌倒。

《汉语大词典词目音序索引》1044d
踼踣 tánɡbó 10-518a

我在国学数典发帖子时,发现“远鄙”的书证错误:

《汉语大词典》
【远鄙】谓避开粗俗。清吴汝纶《答严几道》:“凡琐屑不足道之事,不记何伤?若名之为文,而俚俗鄙浅,荐绅所不道,此则昔之知言者不悬为戒律,曾氏所谓‘辞气远鄙’也。”
少实斋按:“不悬为戒律”当作“无不悬为戒律”,脱“无”字,当据《桐城吳先生全書》补。

《桐城吳先生全書》
无不悬为戒律

在本坛这个帖子讨论过“胗”字的注音错误:

“鸡胗”的胗应该读zhēn还是zhūn

2 个赞

“些”读sā不知从何而来,单字也没注这个音

见图像版“晚些”。

晚些
05\0744.png

@abs
app是(—xiē),我看这个app的注音是自动注音后再人工校读,看漏了这个注音。

2 个赞

我说的不是这,我是说“些”字注音没有sa,这里却注sa

从意思上说是如此

这是第十三卷吗?

《汉语大词典》的“些”单字确实没有sā这个音。

《汉语大字典》第1版、第2版都引了《清平山堂話本·快嘴李翠蓮記》:“年老爹娘無倚靠,早起晚些望顧照。”注音都是xiē。

也许编者决定不要自找麻烦,就跟《汉语大字典》统一说法,不要让读者无所适从,所以app把注音改成了xiē。

依我个人的浅见,其实读xiē就算了,顺其自然,与时并进,不必刻舟求剑。

《汉语大词典词目音序索引》是一本独立的书,是一个外国人编的,由汉语大词典出版社出版。我用的是纸版。难查啊,假如能找到一个清晰的扫描版,ocr之后,可能会好用一点。

2 个赞

你有那么多珍贵的纸版,一扫描不就是pdf了吗?如果扫描仪好,还能真高清,这样ocr错误也少些。

没有扫描仪。即使有,也扫描不了这种大书。

贴个图,望梅止渴。

yinxu

《汉语大词典词目音序索引》出版
光明日报,2004-02-01

本报讯:由美国汉学家梅维恒教授主编的《汉语大词典词目音序索引》历时近10年,最近由汉语大词典出版社出版。

《汉语大词典》共收词370000多条,其中单字23000多条,复词347426条。《汉语大词典》原书所附索引按音序排列,但只有单字,没有复词。从1995年开始,美国汉学家梅维恒教授聘请国内专家给全部复词条目加注拼音,一律按字母顺序单一排列,历时近10年,终于完成了《汉语大词典词目音序索引》,大大提高了词典检索的效率。

https://www.gmw.cn/01gmrb/2004-02/01/05-30277A4AA5A3ED7E48256E2C008374AE.htm

呵呵,利用电脑词头索引,《汉语大词典》的检索已经很有效率了。《汉语大词典词目音序索引》可以用来查疑难词的读音,但是此书没有电脑索引,检索效率很差啊!

《汉语大词典》印刷版本一览(日本人、美国人做的《汉语大词典索引》)

2 个赞

又发现一处古怪:
“啇”字条纸版:
图片
其它电子版和纸版大体一致,但此版:


看多出的内容也不像空穴来风,查《汉语大字典》印证:

此版来路实在令人生疑呀……
另外第二条到底读shang还是qiang书中也有抵牾。

1 个赞

css在我这里看来不起作用,这个我可以理解。但是文字应该是一样的。你贴漏了部分文字吗?

在我的电脑上,这个版在Goldendict中显示的资料是这样的:

From 漢語大詞典2
02037011亠#86905547啇1shìㄕˋshì《集韻》施隻切,入昔,書。“適1”的古字。❍ 《管子·轻重戊》“以商九州之高”于省吾《双剑誃诸子新证·管子四》:“此句商乃啇字之誤。啇古‘適’字。金文適通作‘啇’……‘以適九州之高’,言使九州之高,得其適宜,不受水患也。”
少实斋按:这个和光盘2.0及图像版都一样。后面的就是用别的书补充的。这个版是一个受到污染的版本,不完全是真实的原始资料。

11亠#86905547啇2“商1”的俗字。通“鶬2”。 用金银镶饰。用金銀鑲飾。❍ 明李诩《戒庵老人漫笔·古冢厚蛤壳》:“銅器皆啇金銀者,疑爲三代物。然僧不始於三代,或是北朝時魘鎮物爲近。”
少实斋按:这个见于你的《订补》,不过没有“通鶬2”。注意这种繁简并列的情况:“用金银镶饰。用金銀鑲飾。”《汉语大词典》“鶬”:“1.以金为饰。”但是没说“啇”“通鶬2”,这似乎是制作词典的高人的读书笔记,但是似乎太武断了。

新增条目 (你的《订补》在Goldendict中不能显示书名。)
啇2
[s h ā n g]
“商” 的俗字。用金银镶饰。
:arrow_forward: 明李诩《戒庵老人漫笔·古冢厚蛤壳》 :“銅器皆啇金銀者, 疑爲三代物。然僧不始於三代, 或是北朝時魘鎮物爲近。 ”

11亠#86905547啇3tìㄊㄧˋtì同“摘2”。 用无名指向外弹拨弦索。用無名指嚮外彈拨弦索。❍ 元熊朋来《瑟谱》卷一:“啇,名指向外。”
少实斋按:这个见于你的《订补》。

新增条目
啇1
[t ì]
同“摘” 。用无名指向外弹拨弦索。
:arrow_forward: 元熊朋来 《瑟谱》 卷一:“啇, 名指向外。 ”

11亠#86905547啇4dìㄉㄧˋdì 生物的基趾部位。生物的基趾部位。❍ 《正字通·口部》:“木根、果蒂、獸蹄,皆曰啇。”
少实斋按:这个大概根据《汉语大字典》。

1 个赞

多谢少实兄的考证,但所下结论也有可商榷之处。就是否出自《订补》来说,我的订补中没有下划线,此版在加入订补时也没有下划线,而这里有。再加上其它几点,如你认为来自《汉语大字典》的那条,它比《大字典》少了“《廣韻·錫韻》:“啇,本也。”;还有你认为武断的地方,也很可疑。
另外这样古怪的地方还有,绝不止这一两处。如果是人工补入,工程量实在难以相像。当然《汉语大词典》文本数据流出也有十来年了,如果用蚂蚁啃骨头的精神,坚持十年,这完全不是问题。

楼主的说明明说:”整合了订补的内容。“

可能是用电脑整合了某个版本的《汉语大词典订补》,不是你的版本。

我没比对繁体3.0光盘,不知道有没有糅合其中的内容。

我的看法当然不能算是定论,甚至不能算是推论,只能说是一种猜测。

1 个赞