WFG 网友转制 3.0 的心得。看来 Big5 的问题还是很大的。
感谢盛意,但我无法用百度盘。我自己有光盘2.0,对光盘3.0也没有兴趣。
你能否把光盘3.0的readme.wri或readme.txt上载到本坛?就看一看readme,做个比较。
readme很小,作为帖子的附件上载就可以。
README.rar (2.3 KB)
@shiruxue
感谢费心上载。也就是这行字,你已经引用了:
為了保持與 Windows Vista/XP/2000 中文字符集 (Big5) 的兼容性,本光碟收入的漢字字頭少於印刷本。共收入漢字 13,069 個,計 18,014 個字頭。
@First_Last
感谢提供参考资料。
我摘录First_Last所提供的WFG网志的部分资料,供大家参考吧!
大家应该都信得过WFG吧!亲身用《汉语大词典》光盘3.0做过mdict的专家说“光碟采 BIG-5 编码”。没有必要再讨论《汉语大词典》光盘3.0是什么编码的问题。
漢語大詞典3.0
(略)
不過這部 “漢語大詞典3.0” 電子版仍有些小缺憾,例如與原詞典紙本相比刪減了不少內容(因為光碟採 BIG-5 編碼,超出 BIG-5 13069 字之外的字,製作光碟時均被刪去)。
(略)
p.s. 2014/10/05 今天讀詩經時查詢「爰」字字義,意外發現釋義中第 (11) 項之後有排版瑕疵。經檢視,似有資料脫漏,但比對原始光碟資料,當初轉換並無遺漏。於是再比對於紙本,發現原始光碟可能是為了要刪除非 BIG-5 的字,造成某些資料遺漏或錯亂重複,原光碟即如此,並非我的轉換有疏失。經過搜尋,類似的錯誤可能多達一千六百餘處,暫時無力一一比對修正,只好改一個是一個了。
(略)
p.s. 2015/03/07 朋友又提供的一處錯誤訂正
[厂]
清 聶鈙《泰山道里記》:「轉而東,有石廠曰三陽洞。」清 劉獻廷《廣陽雜記》卷三:「山足至洞頂高八丈許,洞之廠上附頂處,架木爲龕,可布三四席。」一說,「廠」爲「岸」的初文。 => 所有「廠」均應為「厂」。厂,山邊可以居住人的崖洞。說文解字:「厂,山石之厓巖,人可居。」
总结:
(1)光盘2.0采用GBK内码,光盘3.0采用Big 5内码。因为Big 5的字比GBK少,光盘3.0被迫删去许多字。
(2)光盘2.0的数据大概经由繁简转换转成繁体字,成为3.0版,因为校对不精,有些字转换错了也失校,如“厂”变成了“廠”。
这个再由Big 5转码变成Unicode,各位能想象会变成怎样吗?
1千多位学者才能做出30几万条词条解释。即使动员本坛所有会员,能校对完30几万条词条吗?
目前清晰版的是3.44G的mdd,楼主截图用的可能就是,但还算不上高清。
隔壁紫雪蓝海、tsiank等人还作过综合版的,即输入文字“XX"查得文字版,输入“XX!”查得图像版。与 【Mastameta】王力古代漢語字典(綜合版)有异曲同工之妙!
如果让我推荐扫描一部汉语词典,那就是《漢語大詞典》。
@hua 是否可以列入扫描备选书单。 大家好!有些词典网上无高清,建议众筹方式购买及扫描 @MinghuaHan
@shiruxue
你看了这个帖子的讨论吗?
我是用过模糊版《汉语大词典》图像的,所以对本坛这个3.44G的mdd很满意了。
这个版的旧版是模糊版,用新的高清图像(不能只看dpi,高清图像缩小转存的图像还是高清)替换了一部分。
我猜测某些部分可能没换。但我看过的部分多数是令我满意的。
我倒是希望能找到比较清晰的《中文大词典》,本坛的版本不行。任真当初扫描时,应该是彩色高清的,但流传下来的版本都是模糊本。
我用finereader ocr了那么多书,只有《中文大词典》的图像一直让finereader报错,根本无法继续做下去。
就是最大的Bug!
引证的典藉里用的什么字还用什么字就好了!词头和释义是用简体编撰的,还有必要转换吗?这一点,纸版书做得就很好!
那些要繁简转换的,是不认识简体字还是不认识繁体字?
大夥兒花了好大的功夫,原來都是拿被污的底本在折騰攪和,真可惜了!
也许有人不清楚WFG在电子书江湖中的声誉,我提示几个关键词:部件检索,全宋体字型。
WFG说:“今天讀詩經時查詢「爰」字字義,意外發現釋義中第 (11) 項之後有排版瑕疵。”
对比一下图像本、2.0版和3.0版的“爰”字解释:
图像:
2.0版:
【爰】
11.通“猨”。
❍ 《汉书·李广传》:“﹝李廣﹞爲人長,爰臂。”颜师古注引如淳曰:“臂如猨,臂通肩也。”《史记·李将军列传》作“猨臂”。
3.0版:
【爰】
11. 《漢書・李廣傳》:“﹝李廣﹞爲人長,爰臂。”顏師古注引如淳曰:“臂如猿,臂通肩也。”《史記・李將軍列傳》作“猿臂”。
3.0版把开头的“通‘猨’”删掉,造成(11)的义项只剩例证,没有开头的解释。
那么,读者不免要纳闷:立这个义项是要干嘛?
单看3.0版,会觉得《汉语大词典》好像在胡言乱语,不知所云。
懂一点版本学的人,都知道要先广收版本,选定善本做底本,然后才开始整理。
这是我为什么不看3.0版整理讨论帖子的原因。枉费功夫啊!
光盘版2.0的例句顏色對我太淡淺了。請問改成深一點的藍色,要怎麼改 .css ?
多謝!
LZ {color: darkblue;}
多谢!只要能发现问题,解决问题只是难度大小的问题。
发现问题先发在这里,等问题多了再一起解决。
光盘版2和3都没有“愛毛反裘”,怪事
多谢!原来不是没有,而是把“毛”错写为“手”。
這字頭應當是“敦¹⁰”(492頁)。大概按照hexadecimal次序,排成‘A’。
這也要改:@@@LINK=敦ᴬ
稍微看了一下3.0字頭數量,若去掉⁰¹²³⁴⁵⁶⁷⁸⁹,獨特的字頭只有13,069。比#162樓說的18,014少很多。
王力字典有12,413獨特字頭。辭源有14,200左右。
请问这是什么软件