WFG: 全宋詞典 (fgwang.blogspot.com)
全宋詞_全唐五代詞.txt (8.3 MB)
爲免寶珠蒙塵,新發一帖。取自
並無mdx。
WFG: 全宋詞典 (fgwang.blogspot.com)
全宋詞_全唐五代詞.txt (8.3 MB)
爲免寶珠蒙塵,新發一帖。取自
並無mdx。
这是经过简繁转换的哦,因为有明显错误。另外错字讹字也不少,一些数据ocr来的或录入太粗心?
你指出來嘛。我今天看一上午,錯誤倒真未發現。
標點錯誤是看到幾處,但文字沒有
搬運下wfg的本篇blog。
在收集整理全唐詩資料的同時,我同時也在收集宋詞的相關資料。體例上參照《全唐詩》的《全宋詞》收有宋詞兩萬餘首,我當然也就比照辦理,以它為出發點,開始整理宋詞的資料。經過數個月的蒐集整理,以正體的繁體中文為篩選目標,淘汰掉 [簫堯『中國詩苑』《全宋詞》]一類充斥簡體轉繁體痕跡的多個版本後,最終只留下了 [網路展書讀]的 [唐宋詞全文資料庫]一個版本。
這個唐、宋詞檢索網站大概是根據《全唐五代詞》、《全宋詞》、《全宋詞補輯》等書籍為底本,收錄了唐五代詞兩千八百餘首,宋詞兩萬一千三百餘首。網站的問題大致跟前一篇提到的全唐詩差不多,但經與紙本抽檢比對,似乎較好一些,錯誤還不太多。此網站雖然已採用 UTF-8 編碼來呈現內容,但仍使用了數百個不可見的使用者造字,目前除四、五個字找不到原書可以比對之外,我已全數將這些造字、組合字比對還原成正常的 Unicode 字。雖然還是有發現少許錯字,但相對來說這是個較好的版本,目前就把它當作是我主力的 “宋詞” 辭典來用。
經過一番的收集整理,我初步完成了這部以全宋詞為基底的離線辭典 — 唐宋詞典.mdx(3.6MB,收詞 24225 首)。把它跟先前的全唐詩辭典設定成同一個 “詩詞辭典” 群組,在 MDict 裏就可以進行聯合查詢。
我實際上使用它的情境大概會像這樣:在讀蕭麗紅的知名小說《千江有水千江月》的 “第二十章 尾聲” 時,讀到了作者引了幾句宋詞來烘托女主角的心情 —「一場寂寞憑誰訴;算前言,總輕負。」先前我並沒有讀過這闕詞,不知它是誰的作品?於是打開 MDict,切換到唐宋詞典,然後在 “全文搜尋” 裏輸入「一場寂寞憑誰訴」,馬上就查到了這是柳永的作品。
唐宋詞全文檢索系統
http://cls.lib.ntu.edu.tw/CSP/W_DB/index.htm
Pdawiki存档:
语料库(utf8,全文正则搜索):英文,诗词总汇,全唐诗,全唐文,全宋词,古文观止
https://061061.xyz/11570.html
按:本帖2楼:文档是加密过的。没加密的在这里:
链接能打开。需要的自己去下载。链接过期了别问我,我无法使用百度盘。
最起码一部分数据是经过转换的,比如:
御溝 误作 禦溝
金谷園 误作 金穀园
筮卜 误作 筮蔔
咸賀朝列多賢士 误作 鹹賀朝列多賢士
还有一类错误比较诡异,有点像是业余人员用拼音或者五笔随意录入,没任何校对。
瑤池開宴 误作 遙池開宴
水無涯 误作 水在涯
匏繫彌年 误作 匏繁彌年
翠鸞不隔巫山路 误作 翠鷥不隔巫山路
正官橋柳潤 误作 正官橋柳淵
謝謝,我原來口氣不好,抱歉。我上午在拿一些我手頭的資料和他對,沒發現問題,因而偏頗。