历史原则梵语百科词典 | 2025/9/4爬取

《An Encyclopaedic Dictionary of Sanskrit on Historical Principles》为印度浦那德干学院(Deccan College)主持的梵语历史原则百科词典工程,1948年由语言学家S. M. Katre发起,旨在以文献证据系统追溯梵语词汇自吠陀时代至19世纪的音义演变与用法史。12该项目以约1500种梵文典籍为基础,覆盖62个知识门类(如吠陀、达尔沙那、法典、文学、戏剧学、数学、建筑、医学等),并建立逾一千万条纸质摘录卡片的“词汇卡片库”(scriptorium)作为实证基础,所收例证最晚及《Hāsyārṇava》(约1850)。1词典按历史顺序编排词义,逐义配原文引证,标明所涉学科、语法范畴、词源与派生关系,兼述文化史、术语史等相关信息并系统呈现同形词、同义、复义与下义关系。11973年进入编辑阶段,1976年出版首册,迄今已刊行35卷、计6056页,条目进展至“a(अ)—abhigamyamānaparadārādi(अभिगम्यमानपरदारादि)”。13馆藏与书目信息显示该书以梵语为主体并配英文导言与说明,由德干学院连续出版,卷次与编辑体制曾有调整。4词典历任总主编包括Katre、A. M. Ghatage、S. D. Joshi等,现任为Prasad P. Joshi;学者A. L. Basham曾高度评价其学术意义。作为目前唯一依历史原则全面覆盖梵语全时段的大型辞书,它既是语言史与语文学研究的基干工具,亦为印度学及相关领域提供坚实的数据与方法论支撑。——GPT-5搜索后的介绍

数据源来自: Welcome Page - Digital KoshaSHRI - An Encyclopaedic Dictionary of Sanskrit on Historical Principles

历史原则梵语百科词典.zip (14.8 MB)

网站的结构是,每个单词有vocable和id(一个vocable可能对应多个id,他们是不同的词条)

不知道是现在网站还没有把全部数据放上去,还是什么原因,词条明显偏少,以下是用于制作该词典的python代码,以供用于后续修补:

1爬取全部的vocable.py (6.0 KB)
2爬取一个vocable对应多个id的情况.py (6.5 KB)
3合并词条并去重.py.py (5.4 KB)
4根据id爬取每个词条的内容.py (6.5 KB)
5 将数据转换成MDX的txt koshashri_to_mdx.py (21.3 KB) (注意将生成的txt中的开头的标签去掉然后最后再加一个,否则打包MDX时会绷掉)

3 个赞

上一楼的版本有些问题,小时内编辑次数有限制,新版放这里了:

历史原则梵语百科词典.zip (14.8 MB)

koshashri_to_mdx.py (22.5 KB)

1 个赞

您好,感谢制作和分享。有个小bug想提出来供参考,在goldendict-ng中,选中词条中内容的话,会把内容覆盖掉,看不到原来的内容,希望改进一下, 多谢了。另外,希望能够出一版默认显示e.g.的css,多谢了。

这个问题在您之前的两部词典中也存在,希望一并改进下,多谢了

你用的gd太老了,不支持css完整特性。我反馈后才修复的。

又更新了一版,修复了未处理的标签

历史原则梵语百科词典.zip (14.8 MB)

koshashri_to_mdx.py (24.4 KB)

另外,让纳米:banana:画了个图标

3 个赞