潘悟云《汉语古音手册》(2024)上古音拟音数据MDX

汉语古音手册 (豆瓣) (douban.com)

●国家出版基金项目
●18887个汉字字头
《汉语古音手册》是一部反映中国学术界汉语上古音研究最新成果的著作,包括前言、凡例、正文、附录及索引。前言中阐释了古音构拟的理论框架和操作方法。正文收录从先秦两汉的古籍中整理出的18887个上古用字,包括主要的异读用字,字头基本上按《广韵》收录,《广韵》之外的字酌收《集韵》《说文》和《玉篇》用字(于附录集中标注),以声符统摄字头,声符以拼音排序。字头编有流水序号,后列中古音和上古音,中古音列有反切、声、韵、调、等、呼,上古音包括韵部和构拟音标。每个声符中的上古音按上古韵部及其主元音、松紧、韵尾相聚。需要说明的问题作为字头的脚注。后附笔画索引,便于读者查检。

数据来自古音小镜,由midzuki_yuka分享。我用正则粗略地洗版并加上了表格格式,还没有仔细校对过,错误可能还很多。小镜的数据有两种记音,一种是原作者的,一种是站长整理后的。我只保留了原作者的记音。

古音小镜的站长为《汉语古音手册》的编制提供了技术支持,应是潘悟云本人让其把数据放到网站上公开的。数据的词条数(18879)与纸本《汉语古音手册》的字头数(18887)基本吻合,可确定就是《汉语古音手册》的半完整数据(古音小镜剔除了原书的中古拟音,但其余信息一个不少)。可能是为了避免出版社找麻烦,小镜没有说明所谓“上古擬音電子版”基本是《汉语古音手册》的数据。

《汉语古音手册》的出版只是郑张尚芳-潘悟云拟音体系的一个阶段性的成果,古音小镜声称潘悟云的上古拟音会随研究进度不断更新(但如果日后真有更新,恐怕也很难再爬取,小镜和爬虫的对线如今已经发展到影响网站使用的地步了,真人想查询资料都要被反爬程序硬控。)。

未洗版数据:date.txt (7.1 MB)

原材料:
汉语古音手册.txt (13.9 MB)

mdx:
汉语古音手册.7z (1.1 MB)

2024-12-25

  • 修复异读表格全部变为粗体的问题。

我最后有一个请求。上古音新三家之一的斯塔罗斯金把自己对古汉语的拟音数据放到了他自己的The Tower of Babel (starlingdb.org)网站上,但是网站上供下载的big china数据集是残缺的,没有上古前期到中古音之间的拟音数据。我对爬虫一窍不通,希望有懂爬虫技术的大佬能把这个网站上的几千条数据爬下来(网站甚至没升级到HTML5,爬起来应该相当容易)。这样上古音新三家的研究成果在本站就齐全了,对于音韵学研究有极大的便利(白一平-沙加尔汉语拟音)。

2 个赞

没有必要把所有异读设置为标题加粗吧:

原数据的【异读】在结构上就相当于是新起了个词条。我根本不会版式设计,如果觉得不好看的话,原材料就在上面,大家都可以按自己喜好来改。

重点是你把table作为h4标题了,我以为是你正则失误。

确实应该很容易,用自动化工具就行

我沙比了,忘给结束标签加「/」了!我现在就改。

修正版:汉语古音手册.7z (1.1 MB)

但是每日编辑次数到上限了 :clown_face:

1 个赞

斯塔罗斯金那个网站我在爬了,可以说还是稍微有点难度:subquery一直递归展开就没完了,所以只能限制在展开一层subquery。
这个网站真正有价值的地方可能是词源考证。比如「今」(看诗经押韵(大雅)的话「今」好像就是跟那坨-ung的字系联到一块,可知韵母就是-um)联系到了一些亲属语言的kum(年岁)这个词上,这个你在stedt查不到。

3 个赞

没有展开的必要 还是展开方便些,也可以分成三个词典做就行了。汉藏语源和方言两个数据库另外分别爬虫。只离线静态html没有爬虫难度。

https://starlingdb.org/cgi-bin/response.cgi?root=config&morpho=0&basename=\data\sintib\stibet&first=1
https://starlingdb.org/cgi-bin/response.cgi?root=config&morpho=0&basename=\data\china\doc&first=1

还是折中最好,保留js让折叠内容可以在线加载?无限展开离线做不到,只离线一层的展开确实可以了。

多谢!我感受到了社区的温暖。斯塔罗斯金的学术哪怕在音韵学界都没有太多人关注,属于是冷门中的冷门,绝学中的绝学了。我在求助时甚至都做好硬着头皮学爬虫,自己动手的心理准备了 :joy:

我认为相比于郑张-潘和白-沙,斯氏是一个真正的词源学家,他的眼界、方法和治学态度,超越同期的其他音韵学家一个时代。从上世纪八十年代眼光来看,他对音韵学的研究高度几乎赶得上当初高本汉把音韵学拉到现代语言学行列一样震撼。如果不是他英年早逝的话,音韵学界应该不会像现在这样冷寂。

也正是因为网站上每个词条的评注和从中古到上古的六个时期的拟音数据在古音小镜和字统网都没有被完整爬取,我才想要原网站的数据,毕竟任何信息的缺失都可能导致对作者意图的不充分理解。

2 个赞