识典古籍 shidianguji.com

10月11日,由北京大学—字节跳动数字人文开放实验室研发的古籍数字化公益平台“识典古籍”测试版上线。目前可免费搜索390部经典,共计3000多万字。未来三年将陆续完成一万种古籍的智能化整理。运用AI辅助的文字识别、自动标点和命名实体识别技术,识别准确率为96%至97%(据说)。https://shidianguji.com

现在的390部经典古籍主要来自《四部丛刊》。未来三年将陆续完成的一万种古籍基本覆盖儒家、道家和佛学的核心典籍目录。平台具备主题词检索和繁简体转换功能,也提供影印底本作为参照,文字与影像间的定位还是很准确的。页面很简洁。后续将上线移动版。

去年上线的“汉典重光”项目也是利用AI技术实现全文识别和检索。

据不完全估计,散落海外的中国古籍超过400万册。由阿里巴巴达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作的“汉典重光”项目,旨在寻觅流散海外的中国古籍并将其数字化、公共化,首批20万页古籍已发布,并研发了一套古籍AI识别系统,支持全文检索。https://wenyuan.aliyun.com

另外在进行类似研究的还有如是研究院。2020年如是研究院就发起过“如是古籍之大藏经数字化工程”,旨在利用人工智能技术深度加工、整理汉文佛教大藏经。现在的阶段性成果包括“《径山藏》数字化”部分内容、如是古籍数字化工具平台、古籍字典等。

如是研究院已向公众发布两个工具:
一是如是古籍数字化工具平台 https://guji.world.rushi-ai.net,功能包括:如是OCR;智能标点;标点迁移;多文本比对。古籍OCR识别率高和多重校对是其骄傲。
二是古籍字典 https://dict.rushi-ai.net,整合了敦煌俗字典、台湾异体字字典、高丽藏异体字字典等。可造字查询。

12 个赞

科技造福人类,第一生产力

如是这个是商业有偿服务。

北京大学—字节跳动这个很不错的样子:
史通[唐] 劉知幾 撰 · [清] 孫毓修 輯 · [清] 姜殿揚 輯

虽然标记为“粗校”,但文本看上去挺好的。


古籍的OCR还是得要用AI和ML才行。
最近找到这个网上OCR的古籍,吓死个人

OCR出来的文字根本看不懂啊。


话说民国商务印书馆万有文库本的《后汉书集解》(网上所能找到的最佳扫描本我裁切处理了一下,OCR难度可能稍大)

不知道能否让AI来试一试的?

本论坛正在精校的四庫全書總目提要也是OCR的万有文库本,看起来不错。

2 个赞

我看过有收费的ocr平台,不付费只能ocr几页,就没有尝试。

但是忽然之间,免费(大概看了一下,似乎没说要收费?)的古籍ocr、智能标点平台都冒出来了!

我感觉在中国全面超越美国时(经济、科学等),在文化上也会大爆发啊!

@endnote

我估计日本版《四库提要》是特地扫描一个高清版,再用一个昂贵的ocr软件做了ocr,然后投入人力校改的。拿现成的电子版弄,效果大概不好。

你去试一下上面说的软件,看是否有免费的?看效果如何?再告诉我们。假如有免费的,而效果还行,我也有刻本想ocr。finereader只能ocr现代打字的书,应付不了古代刻本。

2 个赞

标点是AI弄的,准确率还不错,有待优化。。。

人工智障不过是徒添笑柄耳

我个人比较喜欢ctext的界面。ctext的界面比较难看,但是是一种适合古籍整理者使用的界面,图像够大,很容易和文字对比。

“识典”的界面似乎主要是为一般读者弄的,比较好看,但是图像小,很难用来校对。

补古籍识别:古联ocrhttp://www.ancientbooks.cn/
书同文 慧眼ocrhttps://dzcj.unihan.com.cn/Account/Login
中文古籍ocrhttps://ocr.gj.cool/
中文古籍文档分析识别演示系统http://47.101.165.49/textv2/lineRec.html

1 个赞