鉴于当下网络流传的《汉语大词典》文字版种类猥杂冗滥,偶有粗修、时多妄改,种种非一,颇有谬种流传,滋人疑窦之弊。因此本人倡议以原始的汉大光盘版文本为底本,用夸克扫描王等OCR数智工具的分析扫描文本参校,确定光盘版的误植、漏收、擅加、移窜之处,一一订正,以求得到一个接近汉大原书本来面目的版本。
自上个月底开始我重启之前的文本校对工程,对工作流稍加优化,略略提升效率,以近期完成的第八卷粗校为例,总页数1361页,动态校改,不时移植汉语辞书总汇词条数据进行苴补,每完成200页的扫校累计用时大概在四小时到八小时。断断续续二十天左右利用空暇时间完成了第八卷的粗校。根据自身的感知而言,只要有基础的古文识读功底,大多可以胜任这一简单的校改工作,难的反倒是从日常工作、娱乐的时间之外挤出一点点来。即便我有心有力,但时间分配上仍有难以调和的地方。以我一人之身,独力进行校改,即便可以竟其全功,只怕最终所经月日也要在一年乃至两年三年。因此才想在网上寻找同道,一起推动这一工程的进展。
学问之海,汪洋浩漭,对于有志古道、逐昔人游的学友,《汉语大词典》无疑是跨海必资的“利楫”。期盼能找到助力,八九人足矣。协同校改期间可以共用本人账号,分时分段,接力使用。但最好不要利用机器爬虫等手段,避免被系统维护方锁定封杀
以下展示已完成粗校的部分汉大文本,坛友可以参研参研,共商其是。
文字文稿=汉大08a1【20250709:1439】.docx (993.5 KB)
6 个赞
词头要补,释义要补,例证也要补,就是不知道会员一天的浏览量能有多少
词头36w左右,能不能先把词头浏览一遍,查找缺失的词头,
释义,想这种掉了,错了,改了,怎么搜呢,
例证,用正则搜索,释义必定配例证?找出缺少例证的释义?
浏览量的上限我真不好盲目测试。之前最早开通两个账号用于抓取字头、词头,接连被封了,真的很心疼。字头抓了全部,词头才抓了一卷,我还是手动抓的。不管什么账号,限流是肯定的,爽不过一天。按我的方法是最省事的,因为不仅仅是部分词条整个缺失或者缺失例证,还有其他小问题,你拿一册从头到尾梳理下来再合适不过了。WPS用校对功能取光盘、OCR文本进行核对比照,很容易锁定需要增删改的地方,你可以看看我展示的校对样稿,就好评判容不容易上手
校对样稿很详细,能达到这个标准,那很完美了,遍历固然好,就看限流的情况了,蚂蚁搬家,
ps,wps这校对功能看起来很nb啊
校对本来就是这样的苦工作啊。需要的知识不深,但是人力时间极多。支持楼主啃这种硬骨头的决心
你如果感兴趣,私信艾特我一下,我账号借你用用,先拿我整理一半的第六卷练练手,这个卷次只差补齐例证、词条了。或者等个三四天,我理出第九卷,你试试从零到一整起
嗯嗯,就是费眼费腰费时间而已。但凡有十个人,一个半月就给他办下来了。如果有的话……我后面还计划整理明清白话小说语料库、现当代话本小说语料库,都有现成的文本,只差人手去核校对,可惜力有未逮,只能徒呼奈何了
建议使用XML格式进行标记,是比较通用且现代化的方法。不要搞doc了。
这个得等后面再做考量了,考虑到文科生普遍的接受度和校对过程中对wps校对功能的依赖性,毕竟咱这只是先过一遍的粗校而已
1 个赞