分享:《CBETA 中華電子佛典》共收錄典籍 4,560部、19,660卷

CBETA 中華電子佛典
https://cbetaonline.dila.edu.tw

目前共收錄典籍 4,560部、19,660卷,共 225,574,000 字

內部編修會持續校正錯字,每年定期更新,最新版是 2022年03月30日

使用前需安裝 ​悉曇字型、蘭札字型,才能完整顯示經文

CBETA 中華電子佛典協會
https://www.cbeta.org/

官方除了 CBETA 格式以外,也提供了 Epub / PDF / Mobi 版本下載

建議下載 Epub 版,507MB 容量小,打開速度快還能自動換行,方便隨時閱讀

5 个赞

CBETA的佛典文本对于缺字使用部件组合的方式表达(明=日*月),不知道如何替换成Unicode编码或者字符图片。

“[皮-(〡/又)+(王/匆)]”

摘录来自: 唐 楊仙鸖撰. “D8724 報恩金剛經文十二段。” Apple Books. 

“[聲-耳+(夕*(ㄗ@、))]”

摘录来自: 唐 楊仙鸖撰. “D8724 報恩金剛經文十二段。” Apple Books. 
2 个赞

如果有CB码的话(Cbeta 内部工作用的缺字编号)可以日本人整理的文件:

裡頭用到的cdp 指 台湾中央研究院文献处理实验室的部件编码。
ps. CBETA相关的事可以问我呀,CBeta成立前我曾极积参与讨论技术问题,文件格式也还算熟。

3 个赞

感谢,已经找到了CBETA的缺字资料库,看到了CB码。CBETA有自己的汉字拼形组字系统吗?就是从部件组合的表达式直接生成图片文字。

如果是一减一加的CBETA组字式,是有机会转成拼形式的。正则表达 /(.)-(.)+(.)/ ==> “$1$2$3”。
组字式设计时主要考虑在big5 环境下,不依赖「缺字赋码、缺字字型及输入法表格更新」(这三者必须同步,在没有网路和git的时代,极为麻烦),以「腦補」的方式,起到沟通的作用,并没有太多考虑机读,更没想到组字式可以引导字形生成。
在组字式之前,描述缺字方法可说是五花八门,比方说「门内有三人」(big5 无閦也无众)
後来有了比较规范的IDS,组字式就不容易推广(因为表现力和IDS相比并没有本质的差异,而且IDS可视为纯字符串,组字式则占用了基本符号),目前除了佛经,我还没见到其他场合有大规模的应用。

3 个赞