胡羁子
1
我用rime近两年了,如今幾乎是離不開的程度。个人平常用最多的是倉頡輸入法。後來對音韻學起了興趣,學中古漢語之餘,用上了一門音碼(一個人造的漢語音系)。學這門音碼是因爲其並不太複雜,整體上是《中原音韻》的底子,與切韻音系對應更整齊,又同鄉音有不少重合,用久自有裨益。故而,漢語拼音基本淡出我的輸入限域。
我受「古」影響,自然去玩弄些古代漢語語料——詞庫。github上有个提取漢語大詞典詞頭做成的詞庫,製成時間早在13年。我在論壇混了两三年,自然便知這詞頭應不完全。於是找來2.0復刻本、3.0、訂補、書證探源等(方正版、圖像版未加入)提取詞頭,與rime內置八股文詞庫、明月拼音擴展詞庫去重,得到了新的詞庫。又想到辭源也是我日常所用,故也加以提取並去重(未曾想到辭源與漢大去重後,僅餘一萬餘詞條,二者重合率如此高。)見到「辭源」相比「漢大」小得可憐,便索性合併二者,構成一个新的詞庫。
這時的詞庫較13年的詞庫多了「十」多萬詞頭,令人喫驚。想到論壇中熱愛古漢語文化者衆多,rime使用者也時時見之,故分享在論壇。
又,本站《佩文韻府》mdx有許多問題,但還是出在釋文上,詞頭我未發現錯誤。是書對詩詞創作者很有幫助,且其語彙不止於詞目而已。其中對語、摘句固不屬詞頭者甚夥(有意者可查「鐘」字,「踈鐘」、「宫寺靜時鐘」即是。)故不能如漢大、辭源那樣簡單處理,且其中生僻的異體字不在少數。想要做成詞庫,要更費一番功夫,我尚無此技術、精力。
又,除卻漢大、辭源外,我發現大辞海竟有些未爲二者收錄的古漢語詞彙。
luna_pinyin.hanyu.dict.yaml.zip (1.3 MB)
語意凌亂跳脫,是今日在電腦前昏昏沉沉所致,讀者見諒!
5 个赞
楼主分享的是输入法的词库,在分类上应该属于“资源分享”。建议把“电子书”的分类去掉,只留下“资源分享”的标签。
参看:
Rime输入法
1 个赞
胡羁子
5
rime academy裏面有許多有趣的東西。dictionaries版塊裏你可以見到舊版漢語大詞典詞庫,那個也是做了去重的,名字與本帖分享的無二。corpus是語料集合,可以拿來做詞庫。character set裏有許多漢字表,可供研製輸入法,增大碼表之用。另外,dictionaries裏有一門根據普通話改造的音碼。別的我未深入瞭解。
1 个赞
胡羁子
6
有个同論壇「相關」的資源:
全宋詞、全唐五代詞、樂府詩集均內注
2014年6月 WFG製作(初版),補 PUA 缺字
之前看到WFG先生的一篇blog,說曾整理過 全宋詞典 全唐詩典。不過均未分享,如今看到署名WFG的「全宋詞」txt,大概應是同一份數據吧。
胡羁子
8
胡羁子
11
這有甚么。我將之和漢大、八股文、擴展詞庫、詩詞庫等去了重,保有十七萬四百四十條,表現遠比辭源優異了,哈。估摸中文大辭典詞頭拿來去重,也是類似表現。
注:異體字、新舊字形、譌字等未及深入攷慮
luna_pinyin.hanhe.dict.yaml.txt (3.4 MB)
1 个赞
胡羁子
12
論壇有許多用不了百度網盤者,我將大漢和辭典索引搬運於此
大汉和辞典索引.xlsx (13.4 MB)
2 个赞
胡羁子
15
古典詞庫.zip (3.7 MB)
這是我本人使用的詞庫,儘管有不足,但網上没發現勝過的詞庫了。包含:漢大、辭源、佩文韻府、漢和、常見詩詞(自改)、華譯(可於wiki找)。
常見詩詩hanshr共两個,第一個是rime詩詞詞庫原版基礎上改,語料精純,基本没用簡體語料,對原版的錯訛也作一些修改。第二個只是爲包羅語料,有說明(文件裏還加了個彩蛋[提示中古漢語拼音moung ghoeuk ngyoq lewh])。
alfred
16
我試了幾句常見詩詞譬如「白日依山盡」「城春草木深」都未曾收錄,不知是何原因。不過已經是很好的詞庫了,多謝。