汉籍全文检索系统

“汉籍全文检索系统”,知乎有人提供过下载,能用大陆网盘的书友可能早已用过。

无法用大陆网盘的书友,得托tmzncty兄的福,使用其自建网站下载。下载速度奇快。

汉籍全文检索系统第四版
https://book.tmzn.top/1/汉籍全文检索系统第四版
×不能用了。

请改用:漢籍全文檢索系統第四版、佛大的詞典全集

“汉籍全文检索系统”有几个子系统,这个只是其中的常见资料库。其余子系统可能更有用,但就得付费购买。

我用过“汉籍全文检索系统”的旧版,后来有了《四库全书》资料库,就很少用。

但是“汉籍全文检索系统”可以和《四库全书》资料库互补:

(1)其中的二十四史是百衲本。

(2)其中有小说、戏曲等,《四库全书》多数没有。

我记得“汉籍全文检索系统”的旧版不收《金瓶梅》,所以我得自建小说资料库。这个新版已经收了。

这个版有《全宋诗》,但只是从网上收集来的“不全宋诗”,连苏轼的名作《题西林壁》都没有。

嫌弃免费资料库不好用的人,请忽略此帖。此帖是给缺少资料库的书友提供的讯息。

想求人分享付费资料库的人,请自己开帖,不要跟帖。

假如有书友能提供其他免费资料库,欢迎补充讯息。

参看:

7 个赞

大佬你的好东西还真不少,就不客气啦 :grinning:

1 个赞

你的下载速度这么快,得花不少钱吧?

兄台大概读帖不够仔细。我只是转发tmzncty兄的资源,那个站不是我建的,是tmzncty兄建的。

tmzncty兄非常厉害,我是外行,无法置评。

你假如有兴趣和tmzncty兄交流技术,可以到他发的原帖下面去跟帖。

感谢tmzncty兄提供的资源。也感谢hua大建了这个论坛,聚集了五湖四海的奇才高士。

老眼昏花了 :smile:

1 个赞

这个还有一个繁体版的(实际可以繁简转换),书籍比较少,好像最重要的增加是《全唐文》。两个程序不能合并,只能各用各的,真是奇怪。

1 个赞

繁体版是另外的子系统。大概需要付费购买,所以分开?

不需要付费。是与简体系统并列的。看了一下,解压后是1.54G。

1 个赞

如果需要靠这个吃饭,可以一篇一篇导入印象笔记,一个帐号上限10万条,检索修改索引比任何软件都方便

靠这个吃饭就自建资料库了。我不靠这个吃饭,不是电脑专业,都自己用Access自建资料库了。

建资料库,得设法批量导入资料。需要一篇一篇导入就别做了,做到何年何月何日能做完?

1 个赞

记得以前下载过,是有导出限制的,每次只能几百字
另外这里的文本材料好像没有殆知阁多,似乎也没有必要用
至于少数稀有资源,现在看也算不上稀有,大部分还是能找到的

殆知阁的资料多数应该来自Kanripo,源头是部分《四库全书》和《四部丛刊》,但是自作聪明,转换成了简体字,图像字从缺留空。殆知阁的资料也没有标点。

Kanripo收的《四库全书》和《四部丛刊》不齐全,所以根据Kanripo做的四库资料库,如殆知阁、国学大师,资料也不齐全。

Kanseki Repository 漢籍

汉籍全文检索系统是大学学者做的,文本质量比较好,有标点。

有更好的资料库可用,当然不用这个。我在顶楼已经说了:嫌弃的请忽略。

2 个赞

这个系统据说是从出版社拿的校对稿,但文本质量嘛,在更好的识别训练出来之前,不要抱希望,可以说没有过关的文本资源。
系统是收费的,现在改为在线的(有微信版,上次疫情的时候开放过小一段时间),版权好像在陕西师大。限制复制是我用的时候觉得最不爽的地方。
殆知阁的文本来源复杂,有很多问题,但下载后直接是文本文件,找个grep程序就可以了任意检索。如果需要可以就自己需要的文本精校,还是很方便的。

1 个赞

补充一点,如果有高手把这个全部文本提取出来,那就是一个好的数据资源,
如果还需要依附在这个系统自带程序,没有特别需要也不用尝试了,复制麻烦,导出麻烦。

1 个赞

我在资料库中不用html,就用纯文本。过去曾把资料库中的html写到资料库外再用浏览器打开,太麻烦,不这样做了。

现在就检索纯文本资料而已。需要看图像时,用外部程式打开图像。

我基本上也不用正则,自己写VBA程式处理资料。

2 个赞

喜欢殆知阁文本的,tmzn也有。

殆知阁古代文献藏书v2

利用纯文本检索的好处是:不懂得做资料库的人也可以直接用。

把殆知阁文本全下载,保持原来的文件夹结构。

去下载Emeditor,假如你没有:

然后,利用Emeditor的Search - find in file,马上就能检索刚下载的文本资料库了。

不是打开单一文本检索。Search - find in file可以检索一个文件夹下所有子文件夹内的文本文件。把相关内容摘录汇总。

假如需要进一步看文本,点一下摘录的链接,Emeditor就会打开原文本。

不必限于殆知阁的文本,你自己ocr电子书做出来的文本,也可以这样检索。

这样做的坏处是:很慢。用任何一种资料库检索,都会比这个方法快得多。

假如你不想这样检索文本,也无法自己做资料库,又嫌弃顶楼的资料库。还有一个方法,用佛爷做的mdx。这个应该是用殆知阁文本做的。mdx可以做全文检索。

中华古籍数据库15694种-第二版

无法用百度盘的,去tmzn:

文淵閣四庫全書mdx
https://book.tmzn.top/5t/BOOK/词典/古籍等/文淵閣四庫全書

《四库全书》mdx的资料是不全的,完整的得用这一种:

四库全书绿色便携版

当然,你得有办法下载,下载后,电脑系统还要能用才行。

假如Win10不能用,装个Virtual Box,在Win10中跑WinXp吧。

非常不同意。你把所有资料都放在一个商业软件帐号里,就受制于人,随时任人宰割。

我的软件是自己写的,我的资料我做主,可以随心所欲操控。

各人用自己顺手的工具好了,何必管别人用什么。

2 个赞

附带多说一句,国学大师的《四库全书》检索,也提供过下载。tmzn也有。

因为我有完整的《四库全书》资料库,对国学大师这种土法炼钢版就没兴趣尝试了。

但是,各人对工具的需要不同,也许有人正好需要这种工具,所以我也列出来。不喜欢的请忽视。

假如有书友试了发现有优点,可以报告一下。

这里边还有一些古文字工具书的打包。研究古文字的书友也许会有兴趣。但是没有目录,不知道压缩包里是什么。别问我里边是什么,我没下载。

国学大师离线版
https://book.tmzn.top/2/国学大师完整版

需要看原书图像的在这里找图像:

430G四库全书系列合集
https://book.tmzn.top/5t/BOOK/430G四库全书系列合集(1)

不过我需要看图像时,最常用的其实是Ctext,我常常这样在谷歌里检索:

“文本”+ctext

“青青子衿” ctext

1 个赞

我也非常不同意把自己的资料放到商业软件账号里
有过惨痛的经历,被操纵是一方面
更重要的是审查,当时没有分享,也没有开放浏览权限,然后我自己也打不开了。所以放在自己硬盘上也许是最可靠的选择。
具体哪个就不说了,内容也不足道

1 个赞