求《全宋文》或知識圖譜詩文庫mdx

管窺所見,網上可免費搜索到全宋文、全唐文的數據庫,主要是知識圖譜的詩文庫。最近在豆瓣上看見有熱心網友分享了《全唐文》、《全宋文》、《全宋筆記》、《宋代日記叢編》、《皇宋十朝綱要校正》等的txt文檔,不過只允許線上查找,禁止瀏覽者下載原文檔。我能夠理解該位網友爲何禁止下載原文,但在線上雲端搜索文檔,頗爲卡頓和不便。不知大佬們有相關的mdx資源嗎?

又,宋史研究相關的mdx,我目前在論壇上找到有:《宋代官制辭典》、殆知閣文庫、《文淵閣四庫全書》、《宋人軼事彙編》、帶頁碼的《宋史》、《宋元古地圖集》、《全宋詩》、《古今圖書集成》、《文獻通考》,和一些宋代字書、韻書和個別文集。除此之外,不知是否還有大佬做過其他宋史文獻或辭典呢?有的話,不知是否能夠指個路?

萬分感謝!

https://www.shidianguji.com/ 有2.5万种古籍,可以随便搜索。https://annas-archive.org/ 有5000万本书。

這個我偶爾也會用,但感覺好像檢索結果不如登樓多。但功能更豐富。Anna’s Archive我也經常用。

现在网络是透明的,资源能搜到就是有,找不到就是没有,或者有人有,但因为种种原因不能、不愿发布分享,不是论坛求一下所谓的“大佬”就有人送上门。顺手翻了一下豆瓣上的《全宋文》、《全宋笔记》,好像OCR错误不少,这种质量欠佳的文本在网上其实流传越少越好,作者设置为禁止下载比较合理。

透明歸透明,然而許多資源,還是需要多番搜索才得。比如我是近日才知道FreeMbook Search的網站。倘若不是在看論壇舊有的一些帖子,我根本不會知道有這個網站。然後,有人有資源,但不願意分享,我也覺得無妨;在論壇上發帖,也不是要誰「送上門」,單純是請教、交流,看看還有沒有甚麼我平日忽略了的免費資源而已。用「大佬」一詞,純粹是看見其他帖子如此。豆瓣該位網友的OCR,錯誤是頗多。但由於種種原因,我當前沒有專業古籍庫的通行權,蒐羅史料,當然希望有更多的來源可查。但質量欠佳的文本流傳越少越好,這確實是。

楼主分享的链接对某些书友也许有用,但是所求的资源是求不到的。

1.知识图谱这种数据库是抓不到的。所以也不必求资源。

2.《全宋文》这类书的ocr,专门做研究的人会做了自用,但是不会自找麻烦分享。

假如不在学术机构内做研究,没有专业数据库可用,就只能用免费数据库,或者自建数据库。

我想你大概看过了下列帖子,姑且列出来吧。

古籍全文檢索

网上古籍随见录

宋代相关著作

感謝解釋!看來只有自己再倒騰一些OCR了。以前我也嘗試過OCR全宋文,只是繁體豎排比較困難。

用Finereader第11版。辨识率还行。难字会弄错,检索上下文不会辨识错的部分,可以找到所需文本的。

《全宋文》、《全宋诗》、《全宋笔记》我都做过。《全宋诗》图像不清晰,效果不好。另外两套书基本上能用。

《全宋诗》有北大的数据库。

《全宋文》,国学公司做过唐宋文数据库。假如肯花钱,是买得到的。

这种大套书的ocr,有人做来卖的,数典有人兜售过。但是拿来卖的人只卖你ocr文本,那是很难用的。自己做的,每页文本对应图像,由文本找到图像,更正文本后再引用,那是没问题的。文本只是用来定位图像,不能代替图像。

现在有些OCR引擎识别繁体竖排中文效果很好,比如合合OCR(TextIn),但搞大部头的书,比较费时费钱。下面贴一个《全宋文》OCR的样张:

五二
全宋文卷二宋太祖二
建隆四年十一月十六日〔一〕
建隆四年南郊改乾德元年赦天下制
門下:朕自三靈眷命,五讓興邦,躬親罔憚于萬幾,德教將加于四海。歲時屢稔,華夏大同。干
戈漸偃于靈臺,文軌皆通于象闕。俗阜而南薰風競,刑清而貫索星稀。仰觀則日月麗天,俯視則龜龍
在沼。加以物無疵癘,民樂雍熙。蓋玄穹垂祐于皇家,非凉德自隆于昌運。繇是考百王之舊制,遵千
古之憲章,墜典必修,無文咸秩。潔犧樽而謁清廟,披大裘以郊上玄。萬乘雲屯而在途,千官星拱而
就列。公侯助祭,共江漢以朝宗鐘鼓在懸,與風雷而相薄。百靈受職,羣后受釐。明德既馨,神心
有答。非烟塞望以呈瑞,嘉氣浮空而襲人。民具爾瞻,禮無違者。乃迴金輅,乃御應門。律具協于黄
鍾,日正臨于甲子。順三元而更始,慶萬匯之咸亨。而又藩岳勳臣,宰衡庶尹,外達蠻貊,内暨緇
黄,謂予曆數在躬,以「應天廣運一順其美;謂予温恭允塞,以「聖文神武」成其功。兼「至德」之
鴻名,盡哲王之能事。物議斯允,予衷莫違。宜覃曠蕩之恩,用慰黎元之望。可大赦天下,改建隆四
年爲乾德元年,云云。於戲!崇德報功,取天地無私之象;眚災肆赦,推雷雨作解之恩。更賴中外大
臣,佐佑厥辟。必使萬邦黎獻,盡躋仁壽之鄉;百姓昭明,致我勳華之上。佈告億兆,咸使聞知。
《宋大詔令集》卷一一九。又見《宋朝事實》卷四,《宋會要輯稿》禮五四之一(第二册第一五七二頁)。
〔一〕十六日三原無,據《宋會要輯稿》補。

感謝指路!我摸索一下。

感謝!我看看能不能和Abbyy比較一下。

Abbyy本地的识别软件现在过时了,其质量是没法和一些在线的高精度OCR引擎比的,如今一些视觉大模型,OCR性能也不错。