《汉语大词典》v2.0 原始纯文本

在纯文本上改,做了哪些改动即使不标注,通过程序对比很容易就能查找出来,mdx、html,这些改起来麻烦,要想看具体变动,就更麻烦更难了。

本站有個漢大mdx帶筆畫數,我沒檢查過是否可靠(但他部首說法看來是符合紙書的)。檢查方式是看筆畫順序是否跟頁碼順序出衝突。部首歸類本身也按照次序的。

筆畫數有不同算法,比方說康熙字典算法跟中文新字體算法。還有,有的字碼有字形的分歧(同一個字碼在不同字型顯示不同字形),筆畫數自然也不一致。
這問題我覺得挺複雜的。比方說,隨便拿個大字典的筆畫索引跟Unicode的筆畫說法對照,可以有好幾百處衝突。

嗯,我在整理汉大单字头笔画的时候有体会,部首归类不同就不说了,总笔画也有出入。
不追求完美了,大体有个排序在核对的时候方便点就行。比如通过52楼的图很容易看出索引少了“䉵 ”和“𩟖”。
顺便说一下,有很多人在意汉语大词典网络版,我觉得不过尔尔,数据就是照搬光盘的,部首检索和纸书出入很大,很不负责任。

有很多人在意汉语大词典网络版,我觉得不过尔尔

我知道有知网版,有app版,还有你说有个方正版。

知网版我对过一条,错误和光盘相同。

app版请书友对过三条,错误和光盘相同。

你是说方正版也是用光盘数据吗?

《汉语大词典》这些本质上真的是政治献礼工程,素来没打算给普通人、国民用的。成立专门的出版社;纸本12卷,定价数千;电子光盘出来了,竟然歧视大陆人,不面向国内出售;故意阉割(编码的问题当时有技术可以解决,就是用私有码,《四库全书》电子版就是这样);自己搞了网络版,原则还是不让你用,各种限制。

我的看法是,不用就不用,也没啥了不起。

汉语大词典网络版 汉语大词典 (hanyudacidian.cn)和app是汉语大词典出版社推出的,所以不少人都寄以厚望,但以app和网络版的部首检索来看,不过如此。

汉字本身的特殊性决定了重要的其实是识字,而不是认词,词的问题是在文本语境里自行解决的(根据组成的字,根据语义等推测),所以古代主要是字书,《说文解字》、《康熙字典》等,而无词典。就是当代的小学生中学生,可能人人都有《新华字典》,但并不见得会买《现代汉语词典》,对词的掌握实际上是通过大量的阅读实现的,阅读量不足,给你再好再大的词典也没用,而阅读量足够大和广泛,其实基本不用查词典。

这么说这个纯文本版提取得也不是很完善了,不知道是什么原因导致的。

1 个赞

我的从读书中文网文本pdf转出的文本有这个字,但你的版本没有。

假如这两个文本同源,合理推论:提取的文本是全的,但你的版本有人对过《汉语大词典》,把光盘自己添加的字删了。

说汉语是一种分析性语言,这种分析性不但体现在汉语句法、语法上,而且单字、词语的组成也可以这么说,像“象形,指事,会意,形声,假借,转注”六书,偏旁部首就是单字的分析性,词语的分析性则体现在比较容易从组成的单字来推测词的含义。这种分析性可以有效降低学习者的记忆、认知负担,高中后或许可以把汉语字典词典扔了,而像英文这些字母文字,alphabet确实容易认,但不论多大年纪你都有生词要去学习、记忆,词的含义从abc字母是分析不出来的。

这就很有意思了,但对一遍《汉语大词典》纸本可不是那么容易的事,可能各自的渊源不同,比如说,有人在《汉语大词典》尚未制作成光盘前就拿到了我这个文本文件,后来把它放出来了,但与进一步加工过的《汉语大词典》光盘不同。

這字單稍微看了一下,有的差距是或體字關係,例如 吳 吴。帶 奧 奥 部件的應當也有一群。可以跟大量跳轉表對照一下,很多應當可以連在一起。(我自己懶得做,不敢碰這個)

嗯,图像版的索引大概因为源自日本,有不少与纸书不同的异体。但也确实有不少文本版没有的条目。因为不想费劲比对,就简单合并在一起了。

3 个赞

版本这么乱,可能各安其事是一个比较好的办法,就别想着根据谁去改谁,然后弄出一个善本,因为官方似乎都没标准。

古汉语以单音节词为主,字往往也是词;而现代汉语以双音节词为主,大多字是字,词是词。
小学生刚识字,《新华字典》就够了,中学生只用《新华》就不够了,现代汉语得查《现代汉语词典》,古代汉语得查《古汉语常用字字典》。
的确,《汉语大词典》大多数人不常用到,即使遇到不认识的词百度一下也就行了。但是作为目前收词量最大、最权威的汉语词典放着也不占多大地儿,更何况是电子版的。

中学生未必要用《现代汉语词典》和《古汉语常用字字典》,像我中学就没用过,我的同学好像很多也没有,课本里不是会注释生字生词吗?课外阅读,猜什么意思好了,看多了自然会懂。

1 个赞

这个文本重复的条目有904,由此推测也是不可靠的。

呵呵,看样子不动手整理,真的无法知道。但是现在无法整理这么多的数据。

这个txt看起来还比较靠谱:+1:基本上用它了

1 个赞