請教:四庫全書繁體文本,如何用AI把標點全部加上去?

我认为last_idol引述的说法合情合理。

迪志的《四库全书》文字版我在用。文本精良。但是我知道这是用ocr做出来的,只是用人工做过抽查,部分校对。偶尔会发现ocr的错误。所以要引用一定得对过图像版。

假如要用人工把整部《四库全书》的文字版都校对过,那确实得花很长、非常长的时间。

1 个赞

没觉得有什么道理,这些知名的大型数字化工程,卖给高校的,全部是做过高质量的校对的,以迪志的《文渊阁四库全书》为例,公司网页陈述:

经过国家图书馆善本部专家抽测,文本的错误率为 :

经部: 0.756%%(抽检字量1,931,023)
史部: 0.590%%(抽检字量1,033,914)
子部: 0.547%%(抽检字量657,172)
集部: 0.100%%(抽检字量4,120,351)
大大低於万分之一的国家标准。

而且开发这种大型数据库,可以用的校对方法很多,比如把全部识别为“龍”的原始字符图像全部汇聚在一起、同一个页面,再人眼识别比对,或机器鉴定,可以大大提高正确率。

基本上所有页数超过某一数量的书(比如500页),都有错误的,哪一本不是人工校对过的呢,它能保证高正确率?什么又是“ 字符级别的校对工作”(其实我不太明白这种表达到底啥意思),如果指的是一个一个字图像和文本比对,我某种程度可以保证,假如不是雇佣了500名古典学者做这个工作,校对工人也许会越改越错。四库里面的“异写字、辨析字、讹误字、避讳缺笔字,以及由于手抄典籍所造成的字形差异”很多,普通文化程度的人难以识别鉴定这些微妙之处。

如果文本化四库全书确实需要极高的保真度、正确率,我认为首先应该是在使用过程中解决的,学者、研究者在阅读过程中不断积极反馈自己发现的错误,逐步修正提高,并没有一种先验的“字符级别的校对工作”一劳永逸可以解决这个问题。

还有一种办法,还是借用机器,多次用不同OCR识别引擎,然后比对结果,或者干脆把迪志、爱如生、雕龙、识典的四库文本放在一起对比,有差异的地方进一步由专家核定。

我要是馬雲,就把這些古籍公司、知網、數據庫等全部收購,全部開源,免費無條件開放。

1 个赞

http://www.xueheng.net/
學衡網 有四库全书 ,全部用AI加了標點。圖文對照不齊。文本也是一頁一頁顯示,沒辦法提取。

四库全书目录(提醒:空格进行组合检索。不支持正则表达式检索。查询范围为每个页面,检索结果中前面部分字可能是属于上页,请查看原图后再引用。标点为计算机自动标点,仅供参考。最多只显示10000条。本数据库并不完善,未包含全部四库全书数据,共含2766种,全书共收录古籍3461种,缺约700种,另外有些图文不能很好对照,正在修复中。)

學衡網的四库全书我用过,数据不全,标点质量比较差,也不能直接阅读,基本算废品。不过它的“中文核心典籍”( http://core.xueheng.net/ )还是有一定的参考意义的。

现在如果有心做四库全书文本标点的工作,有一个救急的办法,就是先放过已经标点整理过且电子化了的书,像24史这些大部头,也放过那些已经出过整理本的书(历年各出版社点校过的古籍很多),同样,“识典古籍”标点过的四库古籍不做,把四库全书里那些在任何地方都没标点过的书找出来。

这些没标点过的书里面,百万以上字的巨作也先搁在那里,那么剩下的就不会很多,然后交给有100万 token 输入窗口的Google Gemini 1.5 Pro ( https://aistudio.google.com/ )去标点处理。我测试过,它可以上传一整本 txt 格式的四库文本,然后遵循指令给你标点一遍,正确率相当高,虽然不是完美的,目前也足敷使用了。

不过这个工作,个人来做,也是比较麻烦的,且可能要花销一定的费用。

补充下字符级别的校对就是每个字符都要经过两次人工校对。你的直觉是对的,我的说法直接来源于参与《四库全书》校对的工作人员。 :grin: (央视纪录片频道和今日说法是我们家固定频道,不看也放着听,国内很多人文历史考古的纪录片其实拍的都是国家级工程项目,可以侧面了解些业内新的资讯动态。

1 个赞

我的质疑不是说没人这么干,我前面说了,“国家多年来在古籍数字化方面投入的资金不少,但浪费严重,大量重复建设”,我的质疑在于这么干的成本、效率,合理性在哪里?已经有三四家公司文本化过《四库全书》了,且根据一些反馈它们的数据质量都颇高,除了迪志,我们也不知道它们是不是已经“ 字符级别的校对”过了。如果重起炉灶,即使“经过两次人工校对”,校对的是哪一家制作的文本数据?也不能担保比别人的数据质量、准确度更高,但重复工作、昂贵的成本是货真价实的,如果是“国家级工程”,浪费的是纳税人的钱,更需要严格审视。

人工校对的神话在目前技术进展的情况下也烟消云散了,就我自己文本化、OCR图书的经验来说,人眼比机器不可靠多了,人经常会疲劳、走神,看花眼,人也受限于自己的学识,但机器不会。我前一段时间看一本科幻小说,网上找了个电子版,发现里面错别字很多,它是原作者兢兢业业制作的,多次校对(后记里有附言),但也没啥用,当时用的技术有限,自己的文字水平可能也有限,于是错讹百出。当此情形,我无聊手痒重新制作了一次,用百度高精度OCR了一次,用Abbyy OCR了一次,二者全文本对比校对,其次,校对过的文本我又用“黑马校对”软件扫了一遍。不谦虚地说,我制作出来的这一电子版不但比网上找来的文本高,甚至比原书图像版质量都高,因为我修正了一些原书里发现的文本讹误。

有兴趣的话我还可以继续提高这本书的识别质量,比如再用“合合”OCR一次对比校对,比如把文本一章章输入几个顶级大模型让它们校对查错,都可能比人工校对两次强。

2 个赞

以目前的AI技術,只能說想都別想啦。其實找專業學者來做,品質也不能打包票。當年中華書局出版資治通鑑,是最高領袖下旨成立的計畫,由大師顧頡剛主其事,率領一眾宿儒標點校訂,成書後還是被抓出許多毛病,須待新版改正。幾十年過去了,論舊學底子,如今的學者更不能和顧頡剛那一代人比高下,何況AI?

目前的AI技術 基本可以了,正確率很高了,AI標點後,普通閱讀已經沒有問題。

AI标点古籍的目的并不是正确无误,完美无缺(可能也不存在这样的东西),而是增加其可读性(readability)和可及性(accessibility),帮助读者提高阅读的速度,减少不必要的时间浪费。以目前AI标点的质量,具体可参考前面提到的“识典古籍”等,这样的目标完全可以达到。

甚至愿意找专业学者来标点,ai自动标点过一遍后,继续在它之上工作的难度显著降低,也大大提高效率。说因为机器标点尚未完善,“想都别想啦”,等于讲因为OCR技术目前不完美,我们还是都让打字员手工输入文字一样,是荒唐和不足为据的。

说到OCR, 云聪古籍数字化平台( https://guji.yuncong-ai.com/ )称“可识别简体+繁体+异体汉字4.8万个”。我测试了一下,繁体字文献的OCR正确率很高,有些文字模糊得我肉眼都看不大清楚,它照样可以识别出来,推荐感兴趣的人试一试。

下面传两个识别样本。

治研堂文集
頌之全,茹古含今,超唐宋元之作。運腕極臨池之妙,龍鳳盤拏;,會心得寫物之工,雲煙縹緲
翠珉勒就,百僚奉爲奇珍;綈錦裝成,三殿傳爲祕寶實。文思旣洽武德丕昭。殿前獻頡利之俘
渭上起呼韓之邸。刻和闔之寶甕,陳向彤廷,受大宛之名駒,牽來上苑。收三十六國之之封畛
列戊己而開屯;拓二萬餘里之廣輪,命羲和而揆日。九山九澤,德不距乎祗台;,四極四和,是
總包乎在宥。一人有慶,展也大成,萬國咸寧,巍乎盛烈,洵生民以來未有,而自天之祐以申也
乃者歲在上章,月惟南呂,紀金穰之上瑞,物始由庚;慶穡事之成功,秋當平秩。計膺圖之歲
逾三十而五居其中;溯誕聖之初,周六句而數將復始。近中秋之三五,謙而不盈;驗瑞莢之十
三滋而益長。虹流昴貫,長生應首出之符;璧合珠聯,上元啓昇平之運冐茆於卯,海宇之不
冐無疆,悉新於辛,聖德之日新不已。以實心行實政,陋封禪之七十二君;惟大德享大年,擬
天皇之萬八千歲。乃以元元日之古,大宴在廷,三巡之湛露方瀼,六出之瑞霙寞旋降。敷滂洋之闙
澤,宣寬大之詔書,藏富於民,譽髦斯士。益下勿問元吉,大賚而除穗秸之征;,鼎養是以大亨
闢門而進詩書之彥。擊壤而歌帝力鑿廾耕田;拔茅而集,天衢承筐鼓瑟。周官之興二物,何
以尙茲,漢詔之賜半租,方斯蔑矣。仲春諏日,法駕啓行,親謁山陵,聿懷謨烈。瞻羹墻而永
慕,謂篤不忘,撫雨露之旣濡,丕承無斁。遂移星罡罕,載幸天津。淀合東西,一輪圓鏡,漕分南
北,兩岸長虹。慶川后之懷柔,式崇廟貌;嘉畿民之敦樸,屢布綸音。黄小丁中登春臺而胥

第十七章 刑

初,給事中歐陽一敬言:“緝事員役,其勢易逞,而又各類計所獲功次,以爲
陞授。則憑可逞之勢,邀必獲之功,枉人利己,何所不至!有盜經出首倖
免,故令多引平民以充數者;有括家囊爲盜贓,挾市豪以爲證者;有潛搆圖
書,懷挾僞批,用妖言假印之律相誣陷者;或姓名相類,朦朧見收;父訴子
孝,坐以忤逆。所以被訪之家,諺稱爲剗,毒害可知矣。乞自今定制,機密
重情,事干憲典者,廠衞如故題請。其情罪不明,未經讞審,必待法司詳擬
成獄之後,方與紀功。仍敕兵、刑二部勘問明白,請旨陞賞。或經緝拿未
成獄者,不得虚冒比擬,及他詞訟,不得概涉,以侵有司之事。如獄未成,
而官校及鎮撫司拷打傷重,或至死者,許法司參治。法司容隱扶同,則聽
科臣并參。如此則功必覆實,訪必當事,而刑無冤濫。”時不能用也。崇禎
十五年,御史楊仁愿言:“高皇帝設官,無所謂緝事衙門者。臣下不法,言
官直糾之,無陰訐也。後以肅清輦轂,乃建東廠。臣待罪南城,所閲詞訟,
多以假番故訴冤。夫假稱東廠,害猶如此,况其真乎?此由積重之勢然
也。所謂積重之勢者,功令比較事件,番役每懸價以買事件,受買者至誘
人爲姦盗而賣之,番役不問其從來,誘者分利去矣。挾忿首告,誣以重法,
挾者志無不逞矣。伏願寬東廠事件,而後東廠之比較可緩,東廠之比較
緩,而後番役之買事件與賣事件者俱可息。”後復切言緹騎不當遣。帝爲
諭東廠,言所緝止謀逆亂倫,其作奸犯科,自有司存,不宜緝,并戒錦衣校
尉之横索者。然帝倚廠衞益甚,至國亡乃已。
清制,廳州縣及直隸州廳皆爲親民之官,而府屬廳州縣由府審轉,直
隸州廳由道審轉。重案報告上司日通詳。急切不知事之始末,但報其事
者曰通稟。對府、道、藩、臬、督、撫同時爲之,故有六路通詳之名。若關軍
事,即武衙門亦須報,關生員以上并報學政。又按月分舊管,新收、開除、
實在報府日月報。其控官吏者,户婚、田土、錢債案件,由布政司親訊,刑
案按察司親訊,仍會同布政司。其訴之督撫者,亦例發兩司。督撫亦受上
訴,有須親訊者,有可委員審訊者,省城所設之發審局是也。再上則爲户、
刑部矣。凡京控,或特派員查辦,或即令督撫查辦。凡民事,州縣皆得决
斷,重大者亦可申布政司。刑事,州縣决徒以下,府道同。流刑由按察司
513

阿里家的达摩院有在做古籍的
之前有说过OCR进展之类的
像标点这种做了多少,什么进度不太清楚

軟件在哪下載? 500字太少了。好像是 荀子AI 的前身吧

SikuBERT 详细介绍:

hsc748NLP/SikuBERT-for-digital-humanities-and-classical-Chinese-information-processing: SikuBERT:四库全书的预训练语言模型(四库BERT) Pre-training Model of Siku Quanshu (github.com)

SikuBERT非常强大,附上我最近看到的一个2023年的计算语言学论文原文,就是基于SikuBERT的微调模型研究的。

实验结果显示,预训练语言模型具有较好的语境信息编码能力,在一定程度上能够辅助探测通假字,其中,基于BERT模型的方法效果普遍最优,GPT2模型次之,Ngram模型最弱。推测一方面与模型的复杂程度有关,Ngram模型最为简单,对上下文信息的捕捉能力最弱,另一方面也和模型结构有关,与GPT2单向自回归训练机制不同,BERT在预训练阶段的双向编码机制使其更擅长利用上文语境信息进行字符判断。

基于文渊阁版繁体四库全书数据训练的模型表现普遍优于基于殆知阁数据训练的模型。殆知阁语料库规模更大,繁简混合,而文渊阁版四库全书(繁体)据规模偏小,全部为繁体。

同样是BERT模型的还有了基于殆知阁语料库训练的古汉语BERT模型DaizhigeBert值得一试。

3 个赞

感谢分享软件!下载后试用,操作很简单,但准确度与古联等相比,尚有较大差距。在此反馈一下。我试用单文件模式,标点黄庭坚《山谷集》任渊注一段文字,无标点原文和两种标点结果如下:

汴岸置酒赠黄十七【与后篇晓放汴舟同时作黄名几复】
吾宗端居丛百忧长歌劝之肯出游【一作百丈暮卷篙人休侵星争前犹几舟】黄流不解涴明月【孟郊寓言谁言浊路泥不污明月色】碧树为我生凉秋【杜诗寒蝉碧树秋】初平群羊置莫问叔度千顷醉即休【一作诗吟吾党夜来作酒置田翁社后篘葛洪神仙传云皇初平年十五家使牧羊有道士将至金华山四十余年其兄初起求得之问羊何在初平言叱叱羊起于是白石皆起成羊数万头后汉黄宪字叔度郭林宗曰叔度汪汪若千顷波皇初平亦作黄山谷多用此事按杨文公谈苑金华山乃皇初平化石之地有石如羊形者人争求以为玩好有内侍掌市征于婺州辍已俸募人求得耳角尾足皆具如真羊者数枚归阙献之太祖曰此墓田中物也杖其内侍神仙之说固多渺茫而皇初平事信而有证此其彰彰者也】谁倚柁楼吹玉笛【用晋王廙柁楼长啸事玉笛见前注】斗杓寒挂屋山头【屋山见前注又王荆公诗落木回颷动屋山王立之诗话山谷谓洪龟父云甥爱老舅何等篇龟父举蜂房各开戸牖蚁穴或梦封侯王及其黄流不解涴明月碧树为我生凉秋深类老杜山谷云得之矣】

Sikuaip:
汴岸置酒赠黄十七,与后篇晓放汴舟同。时作黄名几复吾宗端居丛百忧长歌劝之肯出游,一作百丈暮卷篙人休。侵星争前犹几舟,黄流不解涴明月。孟郊寓言:谁言浊路泥,不污明月色碧树,为我生凉秋。杜诗:寒蝉碧树秋初平。群羊置莫问,叔度千顷醉即休。一作诗吟吾党,夜来作酒置田翁社后。篘葛洪神仙传云:皇初平年十五,家使牧羊。有道士将至金华山。四十余年。其兄初起求得之,问羊何在,初平言:叱叱羊起。于是白石皆起,成羊数万头。后汉黄宪字叔度,郭林宗曰:叔度汪汪若千顷波。皇初平亦作黄。山谷多用此事。按杨文公谈苑,金华山乃皇初平化石之地,有石如羊形者,人争求以为玩好。有内侍掌市征于婺州,辍已俸,募人求得耳角尾足皆具如真羊者数枚,归阙献之。太祖曰:此墓田中物也。杖其内侍。神仙之说,固多渺茫,而皇初平事,信而有证,此其彰彰者也。谁倚柁楼吹玉笛,用晋王廙柁楼长啸事。玉笛见前注。斗杓寒挂屋山头。屋山见前注。又王荆公诗:落木回颷动屋山。王立之诗话山谷谓洪龟父云:甥爱老舅何等篇。龟父举蜂房各开戸,牖蚁穴或梦封侯王。及其黄流不解涴明月,碧树为我生凉秋。深类老杜。山谷云得之矣。

古联ocr:

汴岸置酒赠黄十七,【与后篇晓放汴舟同时作。黄名几复】。
吾宗端居丛百忧,长歌劝之肯出游。【一作百丈暮卷篙人休,侵星争前犹几舟】。黄流不解涴明月,【孟郊寓言:谁言浊路泥,不污明月色】。碧树为我生凉秋,【杜诗:寒蝉碧树秋】初平。群羊置莫问,叔度千顷醉即休。【一作诗吟:吾党夜来作酒置,田翁社后篘葛洪。神仙传云:皇初平年十五,家使牧羊。有道士将至金华山四十余年,其兄初起求得之。问羊何在,初平言:叱叱羊起。于是白石皆起,成羊数万头。后汉黄宪字叔度,郭林宗曰:叔度汪汪,若千顷波。皇初平亦作黄,山谷多用此事。按杨文公谈苑:金华山乃皇初平化石之地,有石如羊形者,人争求以为玩好。有内侍掌市征于婺州,辍已俸,募人求得耳角尾足皆具如真羊者数枚,归阙献之。太祖曰:此墓田中物也。杖其内侍。神仙之说固多渺茫,而皇初平事信而有证,此其彰彰者也】。谁倚柁楼吹玉笛,【用晋王廙柁楼长啸事,玉笛见前注】。斗杓寒挂屋山头,【屋山见前注。又王荆公诗:落木回颷动屋山。王立之诗话:山谷谓洪龟父云:甥爱老舅何等篇,龟父举蜂房各开戸牖,蚁穴或梦封侯王,及其黄流不解涴明月,碧树为我生凉秋,深类老杜。山谷云得之矣】。


明明有分隔符号,将原文和注文分开。但Sikuaip不能识别,混在一起,并导致很多标点错误。不得不说,古联ocr真的很棒,超过一般人点校水平!

即使是非常整齐的一般诗句,也错得很离谱。如果近体诗都点不好,那其他的文本可想而知。

其六
一庵瞑目在穹防菌枕松牀藓阵青乳鹿暗行柽径雪瀑泉微溅石楼经闲吟不觉过天井长啸还能动岳灵应恐无人知此意非凡非圣独醒醒
其七
五岳烟霞连不断三山洞穴去应通石牕欹枕疎疎雨水碓无人浩浩风童子念经深竹里猕猴拾虱夕阳中因嗟往事抛心力六七年来楚水东
其八
翠窦烟岩画不成桂华瀑沫杂芳馨拨霞扫雪和云母掘石移松得茯苓好鸟傍花窥玉磬嫩苔如水没金瓶从他人笑从他笑地覆天翻也只寜
其九
自古浮华能几几逝波终日去滔滔汉王废苑生秋草呉主荒宫入夜涛满屋黄金机不息一头白髪气犹高岂知物外金仙子甘露天香滴毳袍
其十
自休自了自安排常愿居山事偶谐僧采树衣临絶壑狖争山果落空堦闲担茶器缘青嶂静衲禅袍坐緑崖虚作新诗反招隠出来多与此心乖

标点结果:
其六,一庵瞑目在穹防,菌枕松牀藓阵青乳鹿暗行柽径雪,瀑泉微溅石楼经。闲吟不觉过天井,长啸还能动岳灵。应恐无人知此意,非凡非圣独醒醒。其七,五岳烟霞连不断,三山洞穴去应通。石牕欹枕疎疎雨,水碓无人浩浩风。童子念经深竹里,猕猴拾虱夕阳中。因嗟往事抛心力,六七年来楚水东。其八,翠窦烟岩画不成,桂华瀑沫杂芳馨。拨霞扫雪和云母,掘石移松得茯苓。好鸟傍花窥玉磬,嫩苔如水没金瓶。从他人笑从他笑,地覆天翻也只寜。其九。自古浮华能几几,逝波终日去滔滔。汉王废苑生秋草,呉主荒宫入夜涛。满屋黄金机不息,一头白髪气犹高。岂知物外金仙子,甘露天香滴毳袍。其十,自休自了自安排。常愿居山事偶谐僧。采树衣临絶壑,狖争山果落空堦。闲担茶器缘青嶂,静衲禅袍坐緑崖。虚作新诗反招隠,出来多与此心乖。

我也測試了多種AI工具,古聯點得最好。

又找了一段《资治通鉴》的无标点文本测试一下,准确率比较高。考虑到这个程序那么大(解压后4G多),怀疑是集合了若干常见的古籍文本,所以已有标点好的文本,准确率较高,而尚未标点过的,准确率就比较差。胡乱猜想的,免喷。