阿弥陀佛
1
目前的AI標點技術已經不錯了,準確率很高。北大、北師大、龍泉寺、中華書局古聯 等等。各大網站都有試用,不過限制次數或字數。
請問 如何一次性 標點 四庫全書繁體文本?用python調用API實現?
又:建議 @glacierlee 在軟件中可以加入 AI標點 這一選項。遇到沒有標點的文本,直接調用AI 即時標點。不知能否實現?
現有 四庫全書繁體MDX,沒有標點,使用率非常低。
國學大師網站自說有四庫全書簡體標點本,我看是把現有的相關資料編在一起,和殆知閣類似。並不是真正的四庫全書原始文本。
3 个赞
这现在只是砸入钱的问题,调用openai、Goolge Gemini、anthropic,或者通义千问的api。前几家比较贵,但通义千问有1块钱200万tokens的价格,《四库全书》7、8亿字,理论算下来输入400块钱,输出400块钱,千把元搞定。不过我只少量文本测试过,处理数亿文本这些大模型的速度和性能怎么样不知道。
也可以耐心等一下,识典古籍( https://www.shidianguji.com/ )说不定过一两年就基本把四库全书都数字化、标点了,据说这个数据库要做到10000种的规模(当下5000余种),大部分四库全书的文本应该包括在内。
用荀子模型,模型已经用四库全书训练过,专业且免费。
简单点儿就直接用API,如果要高效还是在本机部署。我的电脑显卡不行,没试过。
但四库全书断完也看不完呀。
那些所谓的专业古文模型,根据我不专业的零星使用感受,反而好像是比较差劲的。但实际也不意外,因为LLM越大越好,参数更多,训练数据更多,模式、语义理解会更充分。此一现象也出现在翻译模型上,现在以前盛行的专业翻译引擎都被顶级大模型超越、打败了。
本地部署模型也可能是不划算,且低效的。比如说,本地部署qwen 72b模型,需要非常好的GPU(例如A100/H100)才能达到了100 token/秒的输出速度。那么,一天处理 100x60x60x24 = 8640000 字(token),四库全书全部标点了需要不间断运行100天,时间漫长,电费都不菲,或许还是用某些厂商的API更划算。
查了一下,此处的计算有误,“1块钱200万tokens”只是Qwen-Long 的输入价格,输出价格贵了4倍,且不知道Qwen-Long的参数、性能如何,是不是比得上qwen2 72b,看来商家那些喊得震天响的宣传口号陷阱很多,不可轻信。
北师大推出的“ 古詩文斷句 v3.1” (https://seg.shenshen.wiki/ ),在我用过的古文标点系统里,算准确率相当不错的,貌似和目前的顶级大模型在伯仲之间,它应该是扎扎实实专门训练、强化学习过。不过其弊病是测试版字数有限制,且不提供api调用,没法标点处理大量文本。
1 个赞
阿弥陀佛
9
荀子模型,我試了一下,標點有不少錯誤。比 龍泉寺、古聯 的差得很遠。
阿弥陀佛
11
我試了幾個大模型 和專業AI標點,目前來看,中華書局的古聯 準確率最高,龍泉寺的古籍酷也不錯,北大和北師大的略差一點,幾個大模型的勉強能用。
北师大推出的“ 古詩文斷句 v3.1” (https://seg.shenshen.wiki/ )打不開了,怎麼回事
北师大这个我不知道,它的“太炎”我试过,不行。
也许确实专业的不一定比通用模型强,我目前用豆包,觉得还行。
阿弥陀佛
13
1 个赞
AI的效果好像还不错的,如果你们有ChatGpt的账号,可以自己加AI Prompt就行。
中华书局的古联,因为试用需要注册,我没用过。或许古文标点准确率比较高,因为它有别家不仅具备的优势,即自有庞大的高质量标点古文数据库,这些网上的爬虫抓不到,也就没法加入通用大模型的训练数据集。
龙泉寺的古籍酷现在也需要使用注册了,记得以前公开、免费时我测试过,效果一般。
北大推出的“ 吾与点”,在我的有限测试用例里,性能是比较差的,可能还不如某些本机CPU就能跑的开源小模型 (比如 raynardj/classical-chinese-punctuation-guwen-biaodian · Hugging Face ),不清楚是什么问题。
至于大语言模型搞汉语古文标点,各家公司不同模型的不同“系列”、“版本”正确率千差万别。自己吹牛逼多么多么厉害,可能没人当回事,从相对可信的 LMSYS Chatbot Arena 跑分成绩和我自己的使用感受来说,中文数据处理能力三强目前应该是Google Gemini 1.5 Pro,chatgpt 4o(或者gpt 4),以及Anthropic刚刚推出的Claude 3.5 Sonnet。
1 个赞
从本质上说,现在四库全书(或者其他古文)标点就是个打钱的问题:
1)先用最优秀的语言模型调用其api自动标点一遍;
2)把标点过的文本去掉标点与原文对比,防止因为模型的“幻觉”添加文字或者遗漏文字;
3)用其他比较优质的两三个模型自动标点同样的文本,对比其结果,把有差异的地方高亮显示;
4)聘请专家查验不同模型标点有差异部分,斟酌断定某种认为正确的断句标点方式;
5)粗略浏览全文,定稿。
通过这种方案处理,我相信标点的准确率是比较高的,但同时,会比较费时费钱(也不会用太多钱,问题是谁愿意掏腰包)。
比较差的办法,找一些免费的、廉价的模型瞎搞一番,耗费很多时间与精力,也不是彻底不能用,但错误频出,质量堪忧。我个人认为这么干是没太大意义的,贻误后学事小,垃圾数据流传网络,先机占尽,遍布天下,即使后来者搞出了精品,也没人用,声名不彰,流传不开,竟成了逆向淘汰,类似的事情在电子文献领域很常见。
有人可能认为勉强做出来之后,可以不断改进修订来提高质量。以我的经验,这种想法是错误的,编辑订正垃圾数据,经常比自己用先进工具从头来再制作一遍麻烦得多,且质量不见得更可靠。
阿弥陀佛
17
像這樣大部頭書 由專業機構來做 更好些。其實國家應該立項,組織一個班子,撥給經費,專門做 四庫全書的 整理點校工作。像這方面的工作 ,懶政太多了,一聲嘆息。
国家有专业机构在整理,但是四库全书的影印版有近500万页(忘记说的哪个版本了,看的中央电视台的纪录片),现在字符级别的校对工作都没做完。
如果中央电视台有纪录片这么说,那是屁也不懂瞎扯蛋。《四库全书》的全文电子版,至少有三家公司做过了,迪志文化、爱如生、雕龙,高校普遍采购了在用,识典古籍看样子也打算重新做一次,哪里还需要“在整理”、“字符级别的校对工作”?现在的主要问题是开源,开放版权,进一步的加工(比如标点、注释和翻译等),以及深入广泛的了解研究。
最简单现成的办法,就是收购爱如生公司,将其数据全部开源,然后按照公益事业继续运作。国家多年来在古籍数字化方面投入的资金不少,但浪费严重,大量重复建设;成果做出来了,地方(自我)保护主义严重,不共享,共享出来的也是些垃圾,打上丑陋的水印,图片故意模糊化降低分辨率。