《汉语大词典》v2.0 原始纯文本

这个版本很不错,有没有什么linux命令可以标出检索词头(不包含数字及其它非汉字符号)?sed的最好。

1 个赞

瞎猜是没用的,你知道vs code第4行完整内容是什么吗?“一”有31个义项。

*一1[yīㄧ]
[《廣韻》於悉切,入質,影。]
“弌1”的今字。
1.数词。大写作“壹”。最小的正整数。常用以表示人或事、物的最少数量。《诗·郑风·野有蔓草》:“有美一人,清揚婉兮。”《论语·公冶长》:“<子貢>對曰:‘賜(子貢)也,何敢望回(顔回)?回也,聞一以知十;賜也,聞一以知二。’”唐韩愈《送石处士序》:“先生居嵩邙瀍穀之閒,冬一裘,夏一葛;食朝夕,飯一盂,蔬一盤。”清彭端淑《为学一首示子侄》:“吾一瓶一鉢足矣。”2.序数的第一位。《书·洪範》:“五行:一曰水,二曰火,三曰木,四曰金,五曰土。”《汉书·鲍宣传》:“凡民有七亡:陰陽不和,水旱爲災,一亡也。”《儒林外史》第十九回:“<匡超人>考過,宗師着實稱贊,取在一等第一。”鲁迅《呐喊·明天》:“原來鲁镇是僻静地方,还有些古风:不上一更,大家便都关门睡觉。”3.若干分中的一分或整数以外的零头。《左传·隐公元年》:“先王之制,大都不過參國之一,中五之一,小九之一。”《文选·陆机〈叹逝赋〉》:“顧舊要於遺存,得十一於千百。”李善注:“十一者,謂通千百而計之,十分而得其一。”唐韩愈《别知赋》:“惟知心之難得,斯百一而爲收。”宋洪迈《容斋随笔·俗語有所本》:“俗語謂錢一貫有畸曰千一、千二,米一石有畸曰石一、石二,長一丈有畸曰丈一、丈二之類。”4.表示一部份。《吕氏春秋·举难》:“尺之木必有節目,寸之玉必有瑕瓋,先王知物之不可全也,故擇務而貴取一也。”高诱注:“一分。”5.表示动作一次或短暂。《宋书·戴颙传》:“綏(王綏)曰:‘聞卿善琴,試欲一聽。’”《三国演义》第一○六回:“勝(李勝)曰:‘乞紙筆一用。’”《二刻拍案惊奇》卷十一:“書生得了科名,難道不該歸來會一會宗族鄰里,這也罷,父母墳墓邊也不該去拜見一拜見的?”丁西林《一只马蜂》:“這几天太阳已经很利害,不如叫他们先把南房里的皮衣,拿出来晒一晒。”毛泽东《实践论》:“你要知道梨子的滋味,你就得变革梨子,亲口吃一吃。”6.某一个。汉刘向《列仙传·骑龙鸣》:“一旦騎龍來游亭下,語云馮伯昌孫也。”《三国演义》第九二回:“忽見一人自正南而來,口稱有機密事。”清蒲松龄《聊斋志异·狼》:“一屠暮行,爲狼所逼。”毛泽东《矛盾论》一:“唯物辩证法的宇宙覌主张从事物的内部、从一事物对他事物的关系去研究事物的发展。”7.每个。《三国演义》第二七回:“一人一個火把。”如:班上有五十位同学,一人发五本练习簿。8.全;满。《礼记·杂记下》:“一國之人皆若狂,賜(子貢)未知其樂也。”唐王建《宫词》之六一:“内宴初秋入二更,殿前燈火一天明。”唐蒋防《霍小玉传》:“一家驚喜,聲聞於外。”《二刻拍案惊奇》卷十二:“此時嚴蕊之名布滿一郡。”9.相同;一样。《孟子·离娄下》:“先聖後聖,其揆一也。”赵岐注:“言聖人之度量同也。”《淮南子·说山训》:“所行則異,所歸則一。”清王夫之《读四书大全说·孟子·梁惠王下篇七》:“經、權一也,因事之常變而分爾。”周而复《印第安人》:“首先要弄清楚哥伦布到达美洲时,有多少印第安人?各家说法不一。”10.齐一;联合。《战国策·秦策一》:“諸侯不可一,猶連鷄之不能俱止於棲之明矣。”《史记·苏秦列传》:“故竊爲大王計,莫如一韓、魏、齊、楚、燕、趙以從親,以畔秦。”11.指联合而成的整体。《战国策·秦策五》:“四國爲一,將以攻秦。”汉贾谊《过秦论》:“諸侯恐懼,會盟而謀弱秦,不愛珍器重寶、肥饒之地,以致天下之士,合從締交,相與爲一。”12.统一。《孟子·梁惠王上》:“天下惡乎定?吾對曰:定於一。孰能一之?對曰:不嗜殺人者能一之。”朱熹集注:“王問列國分争,天下當何所定,孟子對以必合於一,然後定也。”《史记·秦始皇本纪》:“一法度、衡石、丈尺;車同軌;書同文字。”唐杜牧《阿房宫赋》:“六王畢,四海一。”13.专一。《荀子·劝学》:“螾無爪牙之利,筋骨之强,上食埃土,下飲黄泉,用心一也。”宋周密《齐东野语·斋不茹荤必变食》:“一其心志,潔其氣體,以與神明交,未嘗不飲酒不茹葷也。”施蛰存《安持精舍印冣序》:“安持之爲人,此編所不能著,余故表其爲貞介之節,使後生君子,知雕蟲之技,得于一,亦立于德也。”14.谓独力统理。《後汉书·冯绲传》:“進赴之宜,權時之策,將軍一之,出郊之事,不復内御。”李贤注:“一,猶專也,言出郊以外,不復由内制御也。”15.纯一不杂。《管子·水地》:“故水一則人心正,水清則民心易。”尹知章注:“一,謂不雜。”南朝宋何承天《重答顔永嘉书》:“蹲膜揖讓,終不竝立,竊願吾子舍兼而遵一也。”16.初;开始。《孟子·梁惠王下》:“《書》曰:‘湯一征,自葛始。’”赵岐注:“言湯初征,自葛始。”《西游记》第十八回:“我一來時,曾與他講過。”老舍《正红旗下》二:“但是,从我一记事儿起,直到她去世,我总以为她在二三十岁的时节,必定和我大姐同样俊秀。”17.另一。《三国志·魏志·武帝纪》:“姓曹,諱操”裴松之注引《曹瞒传》:“太祖一名吉利,小字阿瞞。”南朝梁元帝《金楼子·兴王》:“時許耳之子名曰由,字道開,一字武仲。”18.独。《方言》第十二:“一,蜀也,南楚謂之獨。”郭璞注:“蜀,猶獨耳。”南朝梁萧统《示雲麾弟》:诗:“爾登陟兮一長望,理化顧兮忽憶予。”唐杜甫《秦州杂诗》之七:“煙塵一長望,衰颯正摧顔。”一,一本作“獨”。元萨都剌《宿经山寺》诗之一:“野人一宿經山寺,十里松聲半夜潮。”19.或者。《左传·昭公元年》:“疆埸之邑,一彼一此,何常之有?”《庄子·应帝王》:“泰氏其卧徐徐,其覺于于,一以己爲馬,一以己爲牛。”成玄英疏:“或牛或馬,隨人呼召。”20.副词。都;一概。表示总括。《书·金縢》:“乃卜三龜,一習吉。”孔颖达疏:“用三王之龜卜,一皆相因而吉。”《诗·邶风·北门》:“王事適我,政事一埤益我。”朱熹注:“一,猶皆也。”《史记·曹相国世家》:“參代何爲漢相國,舉事無所變更,一遵蕭何約束。”唐韩愈《毛颖传》:“又善隨人意,正直邪曲巧拙,一隨其人。”21.副词。很;甚。表示程度。《庄子·大宗师》:“顔回問仲尼曰:孟孫才其母死,哭泣無涕,中心不戚,居喪不哀。無是三者,以善處喪蓋魯國。固有無其實而得其名者乎?回一怪之。”孙经世《经传释词补》:“回一怪之,言甚怪之也。”《晏子春秋·谏上九》:“寡人一樂之,是欲禄之以萬鍾,其足乎?”孙经世《经传释词补》:“一樂,即甚説也。”22.副词。一直;始终。表示动作不间断,情况不改变。《淮南子·说林训》:“尾生之信,不如隨牛之誕,而況一不信者乎!”高诱注:“一,猶常也。”唐韩愈《唐故国子司业窦公墓志铭》:“公待我一以朋友,不以幼壯先後致異。”参见“一行”。23.副词。乃;竟然。表示出于意料。《吕氏春秋·知士》:“宣王太息動於顔色曰:静郭君之於寡人,一至此乎!”高诱注:“一,猶乃也。”《史记·范雎蔡泽列传》:“須賈意哀之,留與坐飲食,曰:‘范叔一寒如此哉?’”唐李白《与韩荆州书》:“何令人之景慕,一至於此耶?”孙中山《统一中国非出兵北伐不为功》:“其甚者尤以决堤而淹斃无辜人民,滅絶人道,一至于此!”24.副词。一旦;一经。《礼记·文王世子》:“是故古之人,一舉事而衆皆知其德之備也。”《汉书·文帝纪》:“歲一不登,民有飢色。”唐韩愈《送温处士赴河阳军序》:“伯樂一過冀北之野,而馬群遂空。”杨朔《铁骑兵》一:“一过雁门关,气候显然不同了。”25.副词。犹一一。参见“一聽”、“不一”。26.连词。与“便”或“就”连用,表示两种动作时间上的前后紧接。《儒林外史》第一回:“但世人一見了功名,便捨着性命去求他。”鲁迅《彷徨·孤独者》:“我們的大良们也很喜欢和他玩,一有空,便都到他的屋里去。”赵树理《小二黑结婚》:“和小二黑年纪相仿的孩子们,一跟小二黑生了气,就连声喊道:‘不宜栽种!不宜栽种!’”27.助词。表示加强语气。《管子·霸形》:“今楚王之善寡人一甚矣!”《後汉书·何进传》:“將軍宜一爲天下除患,名垂後世。”《初刻拍案惊奇》卷一:“張大道:‘且説説看。’一竟自去了。”参见“一何”。28.哲学用语。我国古代思想家用以称宇宙万物的原始状态。《老子》:“道生一,一生二,二生三,三生萬物。”《庄子·天地》:“泰初有无,无有无名,一之所起,有一而未形,物得以生,謂之德。”《淮南子·原道训》:“道者,一立而萬物生矣,是故一之理,施四海;一之解,際天地。”29.我国传统乐谱工尺谱所用记音符号之一。《宋史·乐志十七》:“夾鐘、姑洗用‘一’字。”《辽史·乐志》:“各調之中,度曲協音,其聲凡十,曰:五、凡、工、尺、上、一、四、六、勾、合。”30.汉字笔形之一。称“横”。31.姓。明有一炫宗,灵寿县丞。

“一¹”有31个义项,那么“一²”呢?

没有“一²”,看这句话。不过这并不稀奇,下图中“1. 国王正式在庭 (指国王以法官为代表存在于所有法庭)”里的"1."有必要存在吗?毫无必要,可计算机程序处理方便啊,可以少写一个if判断,if len(list)==1:… else: …。

3 个赞

这在电脑辞典其实很常见的,如《现代汉语规范词典》、《新汉英大词典》都是这样,有一无二。

照这么说的话每一个字头后面都应该有一个1了。

但既然原版有下划线,追求还原原版的话,我想也不能随意丢弃吧。不知道未来的新版汉语大词典还会不会保留下划线,那就是另一回事了。

新版汉语大词典已经有纸质版了,京东上有卖,但等出齐不知道要何年何月了。

1 个赞

这不是随意丢弃。这个文本是从读书中文网的pdf导出的,原来的文本pdf已经没有下划线。

即使原来的文本pdf有下划线,一存为纯文本text,下划线也会消失。

所谓纯文本text,就是没有任何格式的。下划线是一种格式。

我理解txt格式没有下划线,我的意思应该说是“没有下划线并非无关紧要” :joy:

1 个赞

这怕是搞反了逻辑先后关系吧,应该说,读书中文网的pdf可能是从这一txt文本打印生成的。从光盘里提取文本的人,没理由直接提取成pdf,比较不方便,也对保存原始数据没什么益处。但可以推测有人有动机把90M的txt转换成pdf,这么大的txt文件当时一般人电脑里的文本软件根本处理不了,Note Pad 和 Word直接打开都是死机,而PDF软件对付百余兆的文本毫无问题。

3 个赞

喜欢下划线/专名号可以通过与其他有下划线的版本用程序对比文本,然后加回来,但这种程序批量处理,比较难保证什么地方不出岔子而引入新的错误。

我自己的text确实是我从读书中文网的文本pdf导出的。比你的text多出了一些说明文字。所以我这样说。

不过,读书中文网的文本pdf确实可能是由text做出来的,因为和text一样完全没有格式。

可以读大型text的阅读器很多,现在我用Emeditor,以前有Ultraedit。不需要做成pdf才能阅读。

把text做成pdf,原因可能是要做成书的格式,加上自己论坛的标志。

对于一般人来说,其实用本坛的2.0光盘版就可以了。即使用3.0光盘,也没什么问题。多数人可能看不出有什么问题。

不过,用3.0光盘其实还不如用《汉典》,《汉典》的多数资料就是根据2.0光盘版的。

1 个赞

刚才查了下《汉语大词典》app,你说的那三个错误,在app里也全都是错的。

2 个赞

由此可以推测:知网和app用的都是原光盘的数据,没有重新校对改正。

多数人大概用不上方正版。

想要一个改正错误的版本的话,还是得自己动手。

清王引之《经义述闻·尔雅中》:“每有,雖也”:“《爾雅》訓‘每’爲‘雖’,非訓‘有’爲‘雖’也……《玉篇》、《廣韻》並云:‘每,雖也。’”
比纸书多个冒号 :innocent:
《汉书·外戚传上·孝武李夫人》:“延年侍上起舞,歌曰:‘北方有佳人,絶世而獨立,一顧倾人城,再顧倾人國’”。
纸书最后的句号在后双引号之前。细究应在后单引号之前。
唐高仲武《中兴间气集上·苏涣》:“三年中作變律詩九首,上廣州李帥,其文意長於諷刺,亦有陳拾遺(陳子昂)一鱗半甲”
后引号前弄丢了句号。
佛教指古印度对人死后的两种错误见解,即“断见”(谓人死后一切皆无)和“常见”(谓人死后灵魂常住),
后少了亦称“无见”和“有见”。
负载,承载·语出《诗·大雅·生民》:
语出前是句号

这类标点错误不仅文本版有,纸书也有,用正则处理时就会出很多问题。

3 个赞

要完善《汉语大词典》的文本,我想了一下,有以下事项可以考虑:

1)订正已知原文本错误。

2)补充缺失单字。官方称“单字2.27万”,Mastameta统计纯文本版有“22,324字條”,正则 ^\* (以*开头的行)搜索,返回16382个结果,可能差距是数千单字。

3)补充缺失词语/复合词。官方称“复词37.5万”,Mastameta统计纯文本版“詞條有343,663”,正则 ^【 搜索返回 343645个结果,大概缺了3万个复合词。

4)补充被删除书证。网文(《汉语大词典》光盘版与纸质版的区别 – 国学网 )称光盘2.0版有“861,956条例证”,而纸质版具体书证数量不详。

5)《汉语大词典订补》内容的补充、合并,待议。

6)2253幅插图,待议。

7)编写程序,根据此文本文件的特征一键生成简单MDX词典,可暂缓。

上述事务除7)外,每一项都是庞大的工作量,不是个人可以轻易完成的,4)尤其艰难,因为要几十万词头一个个对比,比较完之后,还要录入被删除文字。

不过如果有人感兴趣,可以先从稍微简单的入手,比如整理归纳网上已有的《汉语大词典》纠误文字,统计文本文件缺失的单字以及在纸本上的页码,统计文本文件缺失的复合词以及在纸本上的页码等。只有先把这些数字统计出来,无论是从图像版上OCR,还是在网站、App上抓取数据,才能有的放矢。网站数据全文抓取,几十万条,可能很难或者不可能,但如果只是针对性地抓几千条或几万条,就有实现的很大可能性。

1 个赞

我认为最重要的是把词头补全,别的相对都没那么重要。词头只要能检索得到,没有解释的词条就可以看图像。

1.把图像索引词头补全。

2.把光盘文本版已知的错误改正。

3.把光盘文本已有的词条与图像索引词头合并,如此便可以看出哪些词条是没有解释的。

这样用起来就不错了。

1 个赞

根据图像版《汉语大词典》制作者 tsiank 的说明,其图像索引字头、词头是相对比较完善的,因为其来源不是直接取自光盘文本,而是某种程度人工校对、加工过的文件。像其词头的来源 GitHub - cjkvi/cjkvi-dict: 漢字データベースの辞書関連データ ,与这里的纯文本对比,光盘文件里缺失的词头被补上了,下面以第12卷1458页为例说明。

cjkvi的hydcd-word.txt是:

|HC.1458|齷齪熱|
|HC.1458|齷齱|
|HC.1458|齻牙|
|HC.1458|䶦舌|
|HC.1458|𪙫腭|
|HC.1458|䶥齖|
|HC.1458|䶥齬|
|HC.1458|䶥䶥|
|HC.1458|(12−1458−2)(12−1458−2)|
|HC.1458|齽齘|
|HC.1458|齼夏|
|HC.1458|齼齼|
|HC.1458|䶨齺|

汉语大词典 V 2.0.txt 内容是:

*齷1[wòㄨㄛˋ]
[《廣韻》於角切,入覺,影。]
“龌1”的繁体字。
见“齷齪”。
【齷濁】污秽,不纯正。沙汀《淘金记》二四:“他的老脸却也情不自禁地热了一股,但这不是为了他的动机龌浊,他一时回忆起了去年交涉失败的情形。”
【齷齚】器量小。
【齷齪】1.器量局促;狭小。《文选·张衡<西京赋>》:“獨儉嗇以齷齪,忘蟋蟀之謂何。”薛综注:“《漢書》注曰:齷齪,小節也。”南朝宋鲍照《代放歌行》:“小人自齷齪,安知曠士懷?”唐王勃《秋日游莲池序》:“人間齷齪,抱風雲者幾人。”清昭槤《啸亭杂录·重经学》:“故一時耆儒夙學,布列朝班,而漢學始大著,齷齪之儒,自蹍足而退矣。”2.肮脏。元高文秀《黑旋风》第一折:“他見我風吹的齷齪,是這鼻凹裏黑。”《古今小说·沈小霞相会出师表》:“賃房儘有,只是齷齪低窪,急切難得中意的。”周而复《上海的早晨》第一部十八:“不管什么衣服穿到他身上总不像样,也不大合身,不等两天,不是龌龊了,就是扯破了。”3.卑鄙,丑恶。宋方勺《青溪寇轨》:“當軸者皆齷齪邪佞之徒,但知以聲色土木淫蠱上心耳。”明归有光《亡友方思曾墓表》:“與其客飲酒放歌,絶不與豪貴人通。間與之相涉,視其齷齪,必以氣陵之。”茅盾《清明前後》第一幕:“這些政治社会上的黑暗龌龊,使得赵自芳近来更加常常动感情,更加躁急。”
【齷齪熱】暑热病。明冯应京《月令广义·图说·七十二候》:“土氣潤,故蒸鬱爲溽濕,俗稱齷齪熱是也。”
【齷齱】拘谨局狭。《晋书·张茂传》:“遐方異境窺我之齷齱也,必有乘人之規。”

*龋1[qǔㄑㄩˇ]
“齲1”的简化字。

*齹1[cuóㄘㄨㄛˊ]
[《廣韻》昨何切,平歌,從。]
牙齿参差。引申为残缺。参见“齾齹”。

*齻1[diānㄉㄧㄢ]
[《廣韻》都年切,平先,端。]
真牙。《仪礼·既夕礼》:“右齻左齻。”贾公彦疏:“謂牙兩畔最長者。”宋戴侗《六书故》第十一:“齻,真牙也。男子二十四,女子二十一歲,真牙生。”参见“齻牙”。
【齻牙】智牙。牙床末端最后长出的两对臼齿。旧称真牙。《北齐书·徐之才传》:“武成生齻牙,問諸醫……後以問之才,拜賀曰:‘此是智牙,生智牙者聰明長壽。’”

*齽1[jìnㄐㄧㄣˋ]
[《廣韻》巨禁切,去沁,羣。]
1.见“齽齘”。2.牙齿酸噤。明李实《蜀语》:“齒畏曰齽。”清李调元《卍斋琐录》卷一:“今人謂齒怯者曰齼,音楚,齒傷醋也。蜀人謂之牙齽即此。”
【齽齘】切齿盛怒貌。《新唐书·南蛮传中·南诏下》:“州縣繕甲厲兵,掎角相從,皆蠻之深讐,雖女子能齽齘薄賊,況彊夫烈士哉。”明屠隆《綵毫记·展叟单骑》:“孤忠肯把平生壞,怎得離齽齘。願皇天鑒佑脱非災,一掃浄氛埃。”

*齼1[chǔㄔㄨˇ]
[《廣韻》創舉切,上語,初。]
亦作“齭1”。
1.牙齿接触酸味的感觉。《说文·齒部》:“齭,齒傷酢也。”段玉裁注:“亦作齼。凡言痛憷、儊澀意皆同。”宋曾幾《曾宏甫分饷洞庭柑》诗:“莫向君家樊素口,瓠犀微齼遠山顰。”宋赵叔向《肯綮录·俚俗字义》:“齒傷于酸曰齼,音楚。”鲁迅《野草·死後》:“一辆独轮车从我的头边推过,大约是重载的,轧轧地叫得人心烦,还有些牙齿齼。”2.畏怯。明杨慎《艺林伐山·齼字音》:“今京師語,謂怯皆曰齼,不獨齒怯也。”参见“齼齼”、“齼夏”。3.凄楚;悲伤。明夏完淳《满江红·惆怅》词:“想雕欄不墜卻沾泥,言還齼。”
【齼夏】谓夏季食欲减退。清潘荣陛《帝京岁时纪胜·清明》:“清明掃墓……又以柳條穿祭餘蒸點,至立夏日油煎與小兒食之,謂不齼夏。”
【齼齼】畏怯害羞貌。清龚自珍《题盆中兰花》诗之四:“燕山齼齼雲不嬌,靈藥幾堆春未苗。”

*齺1[zōuㄗㄡ]
[《廣韻》士角切,入覺,崇。]
1.牙齿咬物时上下相交切貌。比喻往来交错。2.牙齿咬物时上下相交切貌。比喻上下相迎。《荀子·王霸》:“齺然上下相信,而天下莫之敢當。”杨倞注:“齺,齒相迎也。齺然,上下相向之貌。”

纸本扫描图像

可以看出,在复合词头索引上,cjkvi的“hydcd-word.txt”与纸本一致,而“汉语大词典 V 2.0.txt”缺了几条。

在单字索引上,tsiank 称( 提示信息 - 掌上百科 - PDAWIKI - Powered by Discuz! ):

添加单纯的字头至19902個單字,字頭數據來自於sky66網友,比未更新前多八千多個,且對應的頁碼更爲準確。

无法得知sky66是如何获得这些字头数据的,但能确认“對應的頁碼更爲準確”,我想需要人工校对、复核才行。

图像MDX无论“19902個單字”,还是“複合詞條346221”,都与大词典官方的声称不同,也与“汉语大词典 V 2.0.txt”粗略查询出来的数据不一致,虽然我个人无法担保,但还是愿意相信它更接近印刷纸本书的实际情况,数据也优于这里的“汉语大词典 V 2.0.txt”,因为毕竟很大可能人工稽核过。当然,人工核对、复查也很难避免失误,这些完全是可以接受的。

1 个赞

tsiank 的版本,在本坛讨论过,可以参看:

2 个赞