Rime古典中文詞庫

我用rime近两年了,如今幾乎是離不開的程度。个人平常用最多的是倉頡輸入法。後來對音韻學起了興趣,學中古漢語之餘,用上了一門音碼(一個人造的漢語音系)。學這門音碼是因爲其並不太複雜,整體上是《中原音韻》的底子,與切韻音系對應更整齊,又同鄉音有不少重合,用久自有裨益。故而,漢語拼音基本淡出我的輸入限域。
我受「古」影響,自然去玩弄些古代漢語語料——詞庫。github上有个提取漢語大詞典詞頭做成的詞庫,製成時間早在13年。我在論壇混了两三年,自然便知這詞頭應不完全。於是找來2.0復刻本、3.0、訂補、書證探源等(方正版、圖像版未加入)提取詞頭,與rime內置八股文詞庫、明月拼音擴展詞庫去重,得到了新的詞庫。又想到辭源也是我日常所用,故也加以提取並去重(未曾想到辭源與漢大去重後,僅餘一萬餘詞條,二者重合率如此高。)見到「辭源」相比「漢大」小得可憐,便索性合併二者,構成一个新的詞庫。
這時的詞庫較13年的詞庫多了「十」多萬詞頭,令人喫驚。想到論壇中熱愛古漢語文化者衆多,rime使用者也時時見之,故分享在論壇。

又,本站《佩文韻府》mdx有許多問題,但還是出在釋文上,詞頭我未發現錯誤。是書對詩詞創作者很有幫助,且其語彙不止於詞目而已。其中對語、摘句固不屬詞頭者甚夥(有意者可查「鐘」字,「踈鐘」、「宫寺靜時鐘」即是。)故不能如漢大、辭源那樣簡單處理,且其中生僻的異體字不在少數。想要做成詞庫,要更費一番功夫,我尚無此技術、精力。

又,除卻漢大、辭源外,我發現大辞海竟有些未爲二者收錄的古漢語詞彙。
luna_pinyin.hanyu.dict.yaml.zip (1.3 MB)
語意凌亂跳脫,是今日在電腦前昏昏沉沉所致,讀者見諒!

2 个赞

是這个?

楼主分享的是输入法的词库,在分类上应该属于“资源分享”。建议把“电子书”的分类去掉,只留下“资源分享”的标签。

参看:

Rime输入法

1 个赞

rime academy裏面有許多有趣的東西。dictionaries版塊裏你可以見到舊版漢語大詞典詞庫,那個也是做了去重的,名字與本帖分享的無二。corpus是語料集合,可以拿來做詞庫。character set裏有許多漢字表,可供研製輸入法,增大碼表之用。另外,dictionaries裏有一門根據普通話改造的音碼。別的我未深入瞭解。

有个同論壇「相關」的資源:
全宋詞、全唐五代詞、樂府詩集均內注
2014年6月 WFG製作(初版),補 PUA 缺字
之前看到WFG先生的一篇blog,說曾整理過 全宋詞典 全唐詩典。不過均未分享,如今看到署名WFG的「全宋詞」txt,大概應是同一份數據吧。

可以再对比一下汉和大辞典的辞头。

完全没瞭解過漢和大辭典,哈。只知道中文大辭典的底本是它。您可以推薦个現在比較完備的漢和大辭典mdx嗎?謝謝(找到了大汉和辞典(图片版)——2021.10.30更新高清图片版 - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!

不好意思记错名字了。
我现在用的应该就是这版本。

供参考:

大汉和辞典(1985修订版高清)

這有甚么。我將之和漢大、八股文、擴展詞庫、詩詞庫等去了重,保有十七萬四百四十條,表現遠比辭源優異了,哈。估摸中文大辭典詞頭拿來去重,也是類似表現。
注:異體字、新舊字形、譌字等未及深入攷慮

luna_pinyin.hanhe.dict.yaml.txt (3.4 MB)

論壇有許多用不了百度網盤者,我將大漢和辭典索引搬運於此
大汉和辞典索引.xlsx (13.4 MB)

1 个赞

供参考:

《中文大辞典》词头索引

1 个赞