《汉语大词典》正编十二卷电子文本复音节词条部分阙讹项检出

近个把月以来,《汉语大词典》电子文本校订的热度又起来了不少,很激动,也很失落。同前此一次次发起、中辍的项目一样,依然是有头无尾、有种无果,或许有识者会越来越意识到这不是一场二三人就可以独竟其功的“战争”,但也只能仰屋兴叹、徒呼负负!
每个项目所据底本歧杂不一,有据光盘版本,有据OCR版本,有据抖音版本,有据方正版本,有据他人校订版本……但校订者识力、眼力、心力、慧力各有不同,所写录、校改的“半成品”质量也是参差不齐。个人认为,急切需要有一个强大的统合项目,能把各个同道揽入其中,共同规谋其事,才是正办。有完整的项目思维,有专门的交流群,有合理的任务统筹,有清晰的修订轨迹,有强大的技术支撑,这显然不是二三人的项目可以做到的。
在此,切入本题,聊贡一愚之得、一管之见。就在昨天,我用leon君整理出的多版本拼合的汉大文本(计有字条、词条571088笔),同我手头已补足缺目词条的复音节词条文本(该文本底本系出光盘版,补足的缺目词条系由辞海网汉大数据析出,部分字形正异体差异以纸本书为准进行核改。计有词条347544笔)进行同异互校,检出词条完全重合者212144 笔、词头重合而义/证内容有出入者134947笔。具体文本(连同同异互校脚本代码、方法论[AI编码提示词])捋列如下,有心力者可以进行过程复现、成果复验,并据此进行缩小比对范围,专攻出入词条的同异互校。

AI提示词(方法论).txt (8.0 KB)

汉字字符补集.txt (550.8 KB)

同异互校脚本代码.txt (15.0 KB)

核心文本(含结果文本)网盘链接:
我用夸克网盘给你分享了「dyhdc05_matched.txt」,点击链接或复制整段内容,打开「夸克APP」即可获取。
/~70e138X0lq~:/
链接:https://pan.quark.cn/s/9cd12b4d2a1b?pwd=HjRm
提取码:HjRm

汉大正编复音节词条源页码索引表(有大量错讹,但大致可以锁定源头页位置)网盘链接:
我用夸克网盘给你分享了「纸本汉大正编词条源头页索引表【2020.8.11】.xlsx」,点击链接或复制整段内容,打开「夸克APP」即可获取。
/~a49838X1Ip~:/
链接:https://pan.quark.cn/s/ad76a2f40426?pwd=PvUS
提取码:PvUS

个人认为汉大核校首务当在确认纸本书正编补编完整具体的收词清单,次务在于理清光盘版数据缺漏词条范围。关键的核校底本,若以抖音汉语数据为主体,似不可取,抖音汉语数据缺失的词条内部结构节块层出不穷,诖误他人之处颇多。在此,另附汉大文本词条结构节块筛分脚本代码,有识者可斟酌取用(需注意的是,该脚本严重依赖于源文本的数据质量,尤其是标点符号)。

汉大词条节块筛滤提取脚本代码.txt (9.4 KB)

3 个赞

可分步进行,第一步补完词条缺失,第二步内容缺失,第三步内容错误。一共1513页,起码需30人,每人50页。

哈哈,我记着你一个。其实有30人的话,人手一台电脑,一天时间也就搞定了 :laughing: 可惜,想要凑齐30人之数何其难也

15人呢,如果能凑够十五人,我可以加入

嗯嗯也成,努努力吧。哥们算是个信人。坛里那么多信誓旦旦要校补汉大文本的,一招呼又没应承了,不明所以啊 :joy: