汉语大词典,繁体自制版

确实如此,各种文本版大都源自光盘版,知网版、网络版、app版概莫能外,只有北大方正的应该是撇开光盘,直接对纸书文本化。
但如果没有强迫症的话,光盘版除了个别错误外,基本满足需要了。如果没有光盘版流出,《汉语大词典》恐怕也难以飞入寻常百姓家。另外,纸书第二版虽然快要出版,但离制成mdx还有十万八千里,所以还得继续倚重光盘版呢。

现在除了做古代文献、古典文化研究的,没人需要日常查《汉语大词典》,偶尔用一下,我认为直接从光盘里导出的纯文本(猜测,我有这个文件十几年了,不记得其具体来源)最合适,vs code或者emeditor这些文本编辑器全文搜索很快,各种格式转制,都很有可能引入错误。即使有志修订,也是另建文档单独处理比较好,或者引入git这种可追踪机制。

1 个赞

翻看了移动硬盘里的文件,发现我原来有一个类似的文本。

先有读书中文网的文本pdf“漢語大詞典V2.0文本.pdf”,174mb,导出文本后得到“漢語大詞典V2.0文本Unicode.txt”,92.1mb(多了一些说明之类的文字)。

我当初整理了这个文本,导入Access做成资料库,但是手痒,转换成了繁体,无法逆转了。原来的文本其实还在,只是懒得重做了。

读书中文网的文本,和汉典的相比,汉典的多了一些词,两者显然都基于光盘2.0,有同样的错误。

1 个赞

看來 這個 V2.0 有22,363字條。39條,字頭和釋文是重複的,所以實際上有22,324字條。詞條有343,663。好事者可以拿來比對。
HDC hw - 22363.zip (57.0 KB)
HDC phrases 343663.zip (1.2 MB)

2 个赞

Mastameta兄这个只有字头、词头,没有解释。不知是什么来历?

是從8樓數據抽出來的。
我沒進一步分析因為之前手上的“2.0"版都刪了,只留了一個正體版。

附帶一提,Pleco app最近更新了他的漢語大詞典 add-on,這(鎖碼的)數據佔220.MB,理應只含文字和標籤,但比V2.0大一倍,奇怪,不知道多了什麼內容。
Pleco的Grand Ricci 漢法辭典,310,000 entries,佔139MB。

1 个赞

有这个索引与图像版《汉语大词典》的索引,把GBK 2.0电子版缺失的单字与词条补全不算很困难,对照一下,缺了的就去图像版上OCR。但要找书证缺失与删除,就麻烦得多,要一一逐条对比,至于全面纠正词典本身的释义和引述错谬,业余爱好者可以放弃。

1 个赞

查找书证缺失和删除,也有自动化的办法,就是把图像版《汉语大词典》全部OCR了,不追求其准确度,但争取OCR出来的格式与电子文本大概一致(分段等),然后用 winmerge ( https://winmerge.org )这类工具自动对比,什么地方电子版缺失一大块文本,肯定是把书证删了,做标记,再把相应文本从图像版补回即可。

簡轉繁的方法能不能説明一下?

pleco 的數據大概是不能破解是嗎?

有兴趣尝试简繁转换的书友可以试一下厦门大学的软件:

1 个赞

“一一”的解释哪里错了,没看出来 :sweat_smile:

2 个赞

用厦门大学大的轉過幾本書,發現也不行,錯誤仍然不少。雖然字庫大,甚至有古籍專用的字庫,實際使用結果讓我失望。

1 个赞

这样啊,所以最好的策略是不要转换,完全保留原貌。

转换检索的字串,去迁就原来的文本,比较安全。

1 个赞

北大方正如何,细说

如何细说?对照一下纸书和方正版以及光盘版,会发现光盘没有的、光盘有错的,方正有,方正没错,对生僻字,方正用的是图片字。当然方正应该也有方正的错误。
它对访问限制很严,所以抓取很慢,我近一段基本放弃了。