請教:四庫全書繁體文本,如何用AI把標點全部加上去?

没觉得有什么道理,这些知名的大型数字化工程,卖给高校的,全部是做过高质量的校对的,以迪志的《文渊阁四库全书》为例,公司网页陈述:

经过国家图书馆善本部专家抽测,文本的错误率为 :

经部: 0.756%%(抽检字量1,931,023)
史部: 0.590%%(抽检字量1,033,914)
子部: 0.547%%(抽检字量657,172)
集部: 0.100%%(抽检字量4,120,351)
大大低於万分之一的国家标准。

而且开发这种大型数据库,可以用的校对方法很多,比如把全部识别为“龍”的原始字符图像全部汇聚在一起、同一个页面,再人眼识别比对,或机器鉴定,可以大大提高正确率。

基本上所有页数超过某一数量的书(比如500页),都有错误的,哪一本不是人工校对过的呢,它能保证高正确率?什么又是“ 字符级别的校对工作”(其实我不太明白这种表达到底啥意思),如果指的是一个一个字图像和文本比对,我某种程度可以保证,假如不是雇佣了500名古典学者做这个工作,校对工人也许会越改越错。四库里面的“异写字、辨析字、讹误字、避讳缺笔字,以及由于手抄典籍所造成的字形差异”很多,普通文化程度的人难以识别鉴定这些微妙之处。

如果文本化四库全书确实需要极高的保真度、正确率,我认为首先应该是在使用过程中解决的,学者、研究者在阅读过程中不断积极反馈自己发现的错误,逐步修正提高,并没有一种先验的“字符级别的校对工作”一劳永逸可以解决这个问题。

还有一种办法,还是借用机器,多次用不同OCR识别引擎,然后比对结果,或者干脆把迪志、爱如生、雕龙、识典的四库文本放在一起对比,有差异的地方进一步由专家核定。