数据来自斯塔罗斯金starlingdb.org网站的Chinese characters数据集,感谢@midzuki_yuka 斯塔罗斯金拟音数据爬取分享。
斯塔罗斯金是上古音新三家中最早的一家,其于1989年发表的Реконструкция древнекитайской фонологической системы(《古汉语音系的构拟》)是音韵学界新派拟音的发端之作,书中展现出的拟音体系几乎领先当时的音韵学界十余年,其中有诸多观点为后来的白-沙与郑张-潘体系所继承,至今仍极具参考价值。有一些观点至今仍处于学界研究的前沿(如:汉语声调产生于战国时期)。可以说,后出的白一平(1992)和郑张(2003)在研究水平上都未能超越斯氏。如今的白-沙(2014)和潘悟云(2024)拟音体系对比斯氏的体系其实除了音首以外,也并未在体系上有突破性进展。
斯塔罗斯金于1991年开始着手编写他的Chinese characters数据库,一直持续到他2005年因病去世,其生前尚未能完成整个数据库的编写工作。数据库中将汉语古音分为六期,而当前大部分音韵学家还只满足于简单地区分上古和中古两期,这种精细度在古汉语拟音诸家中只此一家,目前是无可替代的。斯氏还将上古汉语纳入到广泛的汉藏语、乃至于他的高加索-汉藏超级语系比较的环境中(想了解这个语系请上原网站查询)。这亦是至今所有汉语古音手册类文献所不具备的。最重要的是,Chinese characters数据库包含了斯氏在出版Реконструкция древнекитайской фонологической системы(《古汉语音系的构拟》)之后对汉语拟音体系所做的新修订。因此这个数据库的拟音应当看作是二十一世纪初的学术成果,而不是八十年代的老古董了。
资源下载
斯氏记音和国际音标对照表见下。
制作说明
制作mdx比预计的耗时长了不少,因为我严重低估了这个网站源码的屎山程度。数据本身实在有太多太多问题了,这一方面是因为由于斯氏生前未能完成数据库的编写,我们能看到的只是半成品,其在05年以后就停止更新维护了,导致垃圾数据和屎山代码没有得到清理;另一方面是因为爬取数据时的失误导致的大量数据污染和缺失(当然,这也主要是网站屎山代码导致的。数据缺失主要涉及词条下展开的汉藏和方言数据,正常的词条和汉语古音应该一个不少)。我真的很难想象,斯塔罗斯金当年是以什么心态做的项目管理,才能把一个长期公开供人查询的数据库做成这个β样。具体的问题我就不说了,免得让人心凉。
我只能尽力做到把数据清洗干净,修正部分比较明显的错误词条,并加上基本的表格格式,重写成静态的文档。基本能满足查汉字古音的需求,和方便对数据进行二次利用。洗版的过程中不能保证不会误杀一些正常的数据,因为错误的数据和正常数据之间混杂在一起,且没有区别性的特征
我认为原网站的错误已经多到没有挽救的必要了,再重新爬一次也是徒劳。使用中如果遇到任何让人困惑的问题,建议只当成这个半成品数据库的特色,不要试图去考究原因。想了解这个数据库的屎山程度只需要点开下面这个网页看看就知道了(原数据里甚至还有日文假名和西里尔字母作为字头)。
原数据txt:data.7z (1.7 MB)
原材料txt:(原材料)Chinese-characters.7z (1.2 MB)
mdx:Chinese-characters.7z (2.0 MB)
说明
Реконструкция древнекитайской фонологической системы国内有两种译本,但翻译和校对上都有相当大的问题,大量语句的语意不明都是次要的,最主要的是两种译本的表格数据都有不少讹脱。上教版是真正的重量级,仅是一个中古韵母表,我只扫了一眼,就发现了不下5处音标脱漏。我真的很怀疑这个版本出版前到底有没有校对过。北大版读起来稍微好一些,因为译者就没完全照着原文来翻译,字里行间加入了大量自己的理解,基本上只有段落结构是忠于原著的。我建议两本书对照着看(当然,有能力的话直接看俄文原版就不用受这种折磨了)。关于斯塔罗斯金的汉语拟音体系参见:
斯塔罗斯金与郑张尚芳上古音系统比较研究_林海鹰.pdf (12.8 MB)
这篇论文应该是国内对斯氏拟音体系介绍最全面的专著了。
斯塔罗期金古汉语拟音说明
斯氏使用的是非标准的国际音标,且有一套自己独创的汉语分期系统,国内应该没有多少人认识。以下是我学习斯氏拟音体系时做的一点笔记,应该是足够初学者快速看懂斯氏音标了。
斯氏汉语分期
斯氏将从上古到中古的汉语语音史分为7个时期(单个字头有8种拟音):
- Preclassic Old Chinese【前古典上古汉语】:《诗经》时期的音系,即传统音韵学中狭义的上古音。稍晚于白-沙和郑张-潘体系的上古音。
- Classic Old Chinese【古典上古汉语(早期)】:公元前五世纪到前三世纪的音系,即战国时期。斯氏根据《老子》《荀子》和《楚辞》等古籍的押韵来研究这一时期的音系演变。
- 古典上古汉语晚期:细分为西汉和东汉两个时期。
- Western Han Chinese【西汉汉语】
- Eastern Han Chinese【东汉汉语】
- Early Postclassic Chinese【后古典(上古)汉语早期】:公元三世纪,即三国西晋时期。斯氏根据梵汉对音构拟声母系统演变;根据嵇康、阮籍的诗文研究这一时期的韵母系统演变。
- Middle Postclassic Chinese【后古典(上古)汉语中期】:公元四世纪。斯氏根据谢灵运、陶潜的诗文来分析韵母系统的演变,。
- Late Postclassic Chinese【后古典(上古)汉语后期】:公元五世纪。斯氏根据鲍照的诗文来分析这一时期的韵母系统的演变。
- Middle Chinese【中古汉语】:公元六世纪末的《切韵》音系。斯氏主要根据《广韵》来构拟汉字的中古音。
斯塔罗斯金汉语拟音记音符号与国际音标对照表
该表由我个人整理,主要参考《古汉语音系的构拟》和林海鹰的《斯塔罗斯金与郑张尚芳上古音系统比较研究》博士论文。方括号内为标准IPA音标转写。ƛ、ƛh、Ł、Łh这四个声母是数据库独有的记音符号,转写是通过比较数据库拟音和原书拟音表中相同的字头而来。转写仅涉及原书中使用的音标,数据库中其他的特殊音标不在我研究的范围。
斯氏辅音符号表
塞擦音 | 卷舌音① | 龈-腭音② | 边塞擦音③ |
---|---|---|---|
c=[ts]④ | c̣=[tʂ] | ć=[tɕ] | ƛ=[tɬ] |
ʒ=[dz] | ʒ̣=[dʐ] | ʒ́=[dʑ] | ƛh=[tʰɬ] |
ch=[tsʰ] | ṣ=[ʂ] | ś=[ɕ] | Ł=[dɮ] |
ʒh=[dzʰ] | ẓ=[ʐ] | ź=[ʑ] | Łh=[dʰɮ] |
ṇ=[ɳ] | ń=[ȵ]⑤ | ||
ṭ=[ʈ] | |||
ḍ=[ɖ] |
- 卷舌音加下标「 ̣」。
- 龈-腭音加上标「 ́」。
- ƛ、Ł原书作ĉ、ʒ̂,北大译本和林海鹰论文的转写为:ĉ=[tl];ĉh=[thl];ʒ̂=[dl];ʒ̂h=[dhl],我不明白他们的转写为什么不用[ɬ]、[ɮ]这两个音标。
- c亦表示由-t韵尾和去声尾-s组成的[ts]音组。
- [ȵ]为专门描写汉语方言的音标,不在国际音标表上。
- 斯氏的声母系统中几乎每个声母都有送气与不送气的对立,送气声母后加h符来标记。这里只列出部分声母的送气形式。
上古元音表
音位 | 前 | 央 | 后 |
---|---|---|---|
高 | i/ī | u/ū | |
半高 | e/ē | o/ō | |
中 | ǝ/ǝ̄ | ||
半低 | |||
低 | a/ā |
- 元音上加「 ̅ 」符表示长元音,无「 ̅ 」符则表示短元音
中古元音表
音位 | 前 | 央 | 后 |
---|---|---|---|
高 | i | ɨ | u/ü |
次高 | |||
半高 | e | o/ö | |
中 | ǝ | ||
半低 | ʌ | ||
次低 | ä=[æ]③ | ||
低 | a④ | â=[ɑ] |
- 【松紧】:斯氏切韵元音系统存在松紧特征,用「 ̈」符标记紧音,但只标记u和o这两对元音(写作u/ü和o/ö)。松音e出现于介音-i-后,紧音e出现于介音-j-或零介音后,不特别标记。而其他元音因没有成对的松紧对立所以省略标记。(《古汉语音系的构拟》19页)
- 【卷舌】:元音系统还中存在卷舌和不卷舌的对立,卷舌音加下标「 ̣」。a、ä有成对的卷舌与不卷舌对立;ʌ、â[ɑ]这两个后元音不会卷舌化;其余元音在卷舌声母后自动卷舌化(因此不标柱「 ̣」)。卷舌特征和紧音特征可以叠加。卷舌紧元音(卷舌声母后的三等元音)省略所有标注,因为两个特征的信息元音和声母符号本身已经包含了。
- 北大译本作ä=[a],低元音能形成前央后三重对立,放眼全世界所有语言也是相当离奇的。林海鹰论文中标示为与[ɛ]相同的音位,但在Dialectal data中是同时存在ä和ɛ的。经过比较,ä实际表示的音值为[æ]。
- [a]为IPA央低元音的最简写法,要特别注明的话可以用[ä]([ᴀ]是不被国际语音学会承认的音标)。
其余
- 元音上标「 ́」表示此为上声音节。
- 元音上标「 ̀」表示此为去声音节。
- 声母后加「h」表示此为送气音,不用「ʰ」。
- 斯氏使用「ǝ」(U+01DD,拉丁字母倒转e),而不是「ə」(U+0259,国际音标央元音)。
已放弃制作国际音标版
这个数据库的记音相当的复杂,有各种附加符号的叠加和烦琐且意义不明的规则,而且音标都不加括号,和常规文本之间没有明确统一的起始界限。如果简单地用正则批量替换,必然会造成数据污染。
我研究了几天后,还是暂时放弃了制作国际音标版的打算。因为要是再死磕下去,恐怕还得再耗上半个月,而我已经受够这坨屎山的折磨了。古音学资源在本坛点赞量基本在个位数,我实在没有动力做这种吃力不讨好的事。