10月11日,由北京大学—字节跳动数字人文开放实验室研发的古籍数字化公益平台“识典古籍”测试版上线。目前可免费搜索390部经典,共计3000多万字。未来三年将陆续完成一万种古籍的智能化整理。运用AI辅助的文字识别、自动标点和命名实体识别技术,识别准确率为96%至97%(据说)。https://shidianguji.com
现在的390部经典古籍主要来自《四部丛刊》。未来三年将陆续完成的一万种古籍基本覆盖儒家、道家和佛学的核心典籍目录。平台具备主题词检索和繁简体转换功能,也提供影印底本作为参照,文字与影像间的定位还是很准确的。页面很简洁。后续将上线移动版。
去年上线的“汉典重光”项目也是利用AI技术实现全文识别和检索。
据不完全估计,散落海外的中国古籍超过400万册。由阿里巴巴达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作的“汉典重光”项目,旨在寻觅流散海外的中国古籍并将其数字化、公共化,首批20万页古籍已发布,并研发了一套古籍AI识别系统,支持全文检索。https://wenyuan.aliyun.com
另外在进行类似研究的还有如是研究院。2020年如是研究院就发起过“如是古籍之大藏经数字化工程”,旨在利用人工智能技术深度加工、整理汉文佛教大藏经。现在的阶段性成果包括“《径山藏》数字化”部分内容、如是古籍数字化工具平台、古籍字典等。
如是研究院已向公众发布两个工具:
一是如是古籍数字化工具平台 https://guji.world.rushi-ai.net,功能包括:如是OCR;智能标点;标点迁移;多文本比对。古籍OCR识别率高和多重校对是其骄傲。
二是古籍字典 https://dict.rushi-ai.net,整合了敦煌俗字典、台湾异体字字典、高丽藏异体字字典等。可造字查询。