分享：《CBETA 中華電子佛典》共收錄典籍 4,560部、19,660卷

Yuki · 2022 年6 月 26 日 03:34

CBETA 中華電子佛典
https://cbetaonline.dila.edu.tw

目前共收錄典籍 4,560部、19,660卷，共 225,574,000 字

內部編修會持續校正錯字，每年定期更新，最新版是 2022年03月30日

使用前需安裝悉曇字型、蘭札字型，才能完整顯示經文

CBETA 中華電子佛典協會
https://www.cbeta.org/

官方除了 CBETA 格式以外，也提供了 Epub / PDF / Mobi 版本下載

建議下載 Epub 版，507MB 容量小，打開速度快還能自動換行，方便隨時閱讀

last_idol · 2022 年6 月 26 日 04:17

CBETA的佛典文本对于缺字使用部件组合的方式表达（明=日*月），不知道如何替换成Unicode编码或者字符图片。

“[皮-(〡/又)+(王/匆)]”

摘录来自: 唐 楊仙鸖撰. “D8724 報恩金剛經文十二段。” Apple Books. 

“[聲-耳+(夕*(ㄗ@、))]”

摘录来自: 唐 楊仙鸖撰. “D8724 報恩金剛經文十二段。” Apple Books.

accelon · 2022 年6 月 27 日 11:23

如果有CB码的话（Cbeta 内部工作用的缺字编号）可以日本人整理的文件：

github.com

chise/ids/blob/master/IDS-CBETA.txt

;; -*- coding: utf-8-mcs-er -*-
CB00001	&I-CB00001;	⿰𠤕欠
CB00002	&I-CB00002;	⿰⿱匕示頁
CB00003	&I-CB00003;	⿱㓛言
CB00004	&I-CB00004;	⿰⿱水廾頁
CB00005	&I-CB00005;	⿱⿰牙⿹勹丿里
CB00006	&I-CB00006;	⿱⿰王&MJ010776;木
CB00007	&I-CB00007;	⿱䀠心
CB00008	叜	⿱宀⿱火又
CB00009	&I-CB00009;	⿰阝⿱山&AJ1-08425;
CB00010	&I-CB00010;	⿰⿱&CDP-8C69;亞斤
CB00011	&I-CB00011;	⿱&CDP-8D52;䂞
CB00012	&I-CB00012;	⿰𥇛斗
CB00013	&I-CB00013;	慤
CB00014	&I-CB00014;	&I-CB00014;
CB00015	&I-CB00015;	⿰啇鳥
CB00016	&I-CB00016;	&I-CB00016;
CB00017	&I-CB00017;	卐
CB00018	&I-CB00018;	⿺克寸
CB00019	&I-CB00019;	&I-CB00019;

This file has been truncated. show original

裡頭用到的cdp 指台湾中央研究院文献处理实验室的部件编码。
ps. CBETA相关的事可以问我呀，CBeta成立前我曾极积参与讨论技术问题，文件格式也还算熟。

last_idol · 2022 年6 月 27 日 12:07

感谢，已经找到了CBETA的缺字资料库，看到了CB码。CBETA有自己的汉字拼形组字系统吗？就是从部件组合的表达式直接生成图片文字。

accelon · 2022 年6 月 28 日 01:24

如果是一减一加的CBETA组字式，是有机会转成拼形式的。正则表达 /(.)-(.)+(.)/ ==> “$1$2$3”。
组字式设计时主要考虑在big5 环境下，不依赖「缺字赋码、缺字字型及输入法表格更新」（这三者必须同步，在没有网路和git的时代，极为麻烦），以「腦補」的方式，起到沟通的作用，并没有太多考虑机读，更没想到组字式可以引导字形生成。
在组字式之前，描述缺字方法可说是五花八门，比方说「门内有三人」(big5 无閦也无众）
後来有了比较规范的IDS，组字式就不容易推广（因为表现力和IDS相比并没有本质的差异，而且IDS可视为纯字符串，组字式则占用了基本符号)，目前除了佛经，我还没见到其他场合有大规模的应用。