踏破铁鞋无觅处,原来全在我家里 我才发现我五年多前已经整体过了一遍红皮本的汉语大词典,对照复音节词头对光盘版缺收的词头予以补录(印象中当时是仅凭词感判断过眼的词头),并且参照日本人的页码关联表也标注对应的卷次、页次。就是当时很多生僻字是简单用构成部件组合标注,现在还得重新梳理、还原一下本字。同样以光盘版复音节词头为参照系,方正源头的增收词为两千八百多笔,而我是四千四百多笔,增量约为一千六百多笔。现合两种数据源进行对勘,预计八到十五天可以理出一个较为完备的词目表。
【20250729】
汉大字表
汉大部首字表e.txt (122.4 KB)
汉大词表
汉大总词目表(初步汇总).xlsx (4.1 MB)
初步查核汉大光盘版文本较之纸质版文本缺收复音节词条4438笔(词头同形异音通计一笔,增订本复音词未在核对统计范围之内),光盘版文本较之纸质版文本复音节词条存在缺例者约计一万三四千笔。
有可靠完整的詞目表,問題就好辦了。多謝樓主!
但驗證了兩條,光盤版的問題都還存在。【山東山相,山西出將】【愛手反裘】
樓主是不是已經對漢大圖版全部做了文字識別?如果是,建議把識別詞頭、光盤詞頭、方正詞頭、hdc詞頭用比對軟件比對,縮小人工校對範圍。
你说的没错,对于光盘版既有词头我做的是修正部分词头的异体字而已。对于词头讹体字基本没有改订。这次初核的重点我放在缺收词目上。汉大图版的OCR我只完成三卷而已,我的计划是先在光盘版文档基础上补足缺收词条、缺例词条,再整体同OCR文档进行对勘,届时订正工作的就只是小范围的散点修订了,工作量相对而言会少很多
另外哥们,你可以解除私信限制吗?我有些问题想要请教下你这位过来人
什么叫私信限制?扣扣聊
没看明白,这是你整的吗,OCR质量如何 我现在不着急OCR,汉语辞典总汇参校这条路子已经验证彻底走不通了。这个月中下旬我想先用新方法试验下,就挑已完成的第九卷OCR文本,或许在减轻人工核校负担上能有突破
就那样,可用于整理校对。
不用重复ocr了、整理校对少不了。
方便单发第九卷给我吗?我对比下OCR错误率
0001–0100_2025-04-03.TXT (492.1 KB)
0101–0200_2025-04-03.TXT (520.0 KB)
0201–0300_2025-04-03.TXT (520.7 KB)
0401–0500_2025-04-04.TXT (512.1 KB)
0501–0512_2025-04-04.TXT (55.2 KB)
0513–0600_2025-04-04.TXT (452.5 KB)
0601–0700_2025-04-04.TXT (517.6 KB)
0701–0800_2025-04-04.TXT (526.1 KB)
0801–0900_2025-04-05.TXT (522.2 KB)
0901–0950_2025-04-08.TXT (259.0 KB)
0951–1000_2025-04-08.TXT (261.7 KB)
1001–1100_2025-04-08.TXT (528.7 KB)
得嘞,我先看下前300页
文字文稿·简易对比.docx (946.1 KB)
都说不上完美……哈哈哈