汉籍全文检索系统

靠这个吃饭就自建资料库了。我不靠这个吃饭,不是电脑专业,都自己用Access自建资料库了。

建资料库,得设法批量导入资料。需要一篇一篇导入就别做了,做到何年何月何日能做完?

1 Like

记得以前下载过,是有导出限制的,每次只能几百字
另外这里的文本材料好像没有殆知阁多,似乎也没有必要用
至于少数稀有资源,现在看也算不上稀有,大部分还是能找到的

殆知阁的资料多数应该来自Kanripo,源头是部分《四库全书》和《四部丛刊》,但是自作聪明,转换成了简体字,图像字从缺留空。殆知阁的资料也没有标点。

Kanripo收的《四库全书》和《四部丛刊》不齐全,所以根据Kanripo做的四库资料库,如殆知阁、国学大师,资料也不齐全。

Kanseki Repository 漢籍

汉籍全文检索系统是大学学者做的,文本质量比较好,有标点。

有更好的资料库可用,当然不用这个。我在顶楼已经说了:嫌弃的请忽略。

2 Likes

这个系统据说是从出版社拿的校对稿,但文本质量嘛,在更好的识别训练出来之前,不要抱希望,可以说没有过关的文本资源。
系统是收费的,现在改为在线的(有微信版,上次疫情的时候开放过小一段时间),版权好像在陕西师大。限制复制是我用的时候觉得最不爽的地方。
殆知阁的文本来源复杂,有很多问题,但下载后直接是文本文件,找个grep程序就可以了任意检索。如果需要可以就自己需要的文本精校,还是很方便的。

1 Like

补充一点,如果有高手把这个全部文本提取出来,那就是一个好的数据资源,
如果还需要依附在这个系统自带程序,没有特别需要也不用尝试了,复制麻烦,导出麻烦。

1 Like

我在资料库中不用html,就用纯文本。过去曾把资料库中的html写到资料库外再用浏览器打开,太麻烦,不这样做了。

现在就检索纯文本资料而已。需要看图像时,用外部程式打开图像。

我基本上也不用正则,自己写VBA程式处理资料。

2 Likes

喜欢殆知阁文本的,tmzn也有。

殆知阁古代文献藏书v2

利用纯文本检索的好处是:不懂得做资料库的人也可以直接用。

把殆知阁文本全下载,保持原来的文件夹结构。

去下载Emeditor,假如你没有:

然后,利用Emeditor的Search - find in file,马上就能检索刚下载的文本资料库了。

不是打开单一文本检索。Search - find in file可以检索一个文件夹下所有子文件夹内的文本文件。把相关内容摘录汇总。

假如需要进一步看文本,点一下摘录的链接,Emeditor就会打开原文本。

不必限于殆知阁的文本,你自己ocr电子书做出来的文本,也可以这样检索。

这样做的坏处是:很慢。用任何一种资料库检索,都会比这个方法快得多。

假如你不想这样检索文本,也无法自己做资料库,又嫌弃顶楼的资料库。还有一个方法,用佛爷做的mdx。这个应该是用殆知阁文本做的。mdx可以做全文检索。

中华古籍数据库15694种-第二版

无法用百度盘的,去tmzn:

文淵閣四庫全書mdx
https://book.tmzn.top/5t/BOOK/词典/古籍等/文淵閣四庫全書

《四库全书》mdx的资料是不全的,完整的得用这一种:

四库全书绿色便携版

当然,你得有办法下载,下载后,电脑系统还要能用才行。

假如Win10不能用,装个Virtual Box,在Win10中跑WinXp吧。

非常不同意。你把所有资料都放在一个商业软件帐号里,就受制于人,随时任人宰割。

我的软件是自己写的,我的资料我做主,可以随心所欲操控。

各人用自己顺手的工具好了,何必管别人用什么。

2 Likes

附带多说一句,国学大师的《四库全书》检索,也提供过下载。tmzn也有。

因为我有完整的《四库全书》资料库,对国学大师这种土法炼钢版就没兴趣尝试了。

但是,各人对工具的需要不同,也许有人正好需要这种工具,所以我也列出来。不喜欢的请忽视。

假如有书友试了发现有优点,可以报告一下。

这里边还有一些古文字工具书的打包。研究古文字的书友也许会有兴趣。但是没有目录,不知道压缩包里是什么。别问我里边是什么,我没下载。

国学大师离线版
https://book.tmzn.top/2/国学大师完整版

需要看原书图像的在这里找图像:

430G四库全书系列合集
https://book.tmzn.top/5t/BOOK/430G四库全书系列合集(1)

不过我需要看图像时,最常用的其实是Ctext,我常常这样在谷歌里检索:

“文本”+ctext

“青青子衿” ctext

1 Like

我也非常不同意把自己的资料放到商业软件账号里
有过惨痛的经历,被操纵是一方面
更重要的是审查,当时没有分享,也没有开放浏览权限,然后我自己也打不开了。所以放在自己硬盘上也许是最可靠的选择。
具体哪个就不说了,内容也不足道

1 Like

感觉你想太多了,理论上说,大部分免费软件,包括一些开源项目,都含有木马。要绝对不受控制,除非你断网。而且你存点古籍,要挖掘也挖不出金子,对不?

被他们看到,不担心,也没什么值得挖掘的
担心的是自己传的东西自己也看不到,空忙活一场,本来想基于一定量级的检索,结果直接不让用了。
目前感觉理想的方式,是把类似殆知阁那样的文本存到硬盘上,找个有ui的grep任意检索。
文本质量固然是个难题,但作为初步粗检还是足够了。不会有人拿殆知阁的文本当作可以直接引用的文献吧!

1 Like

笔记软件是近十年来蓬勃发展的知识管理工具,没想到还有很多人不听不看不说,实在不可思议。你所担心的事相信别人也都担心过了。

我一直使用mybase,目前在尝试logseq

如果你还在用这么古老的工具,恕我直言,是比较落后的。

很多人用开源软件以为能保护隐私,其实有几个人去读过代码呢,就算全读过一遍又如何呢,自我安慰而已。

mybase是收费的,一直在更新,买过两个大版本更新,顺手而已。
logseq,引入了zotero 6.0以后pdf阅读功能,是吸引我的地方。是目前流行双链笔记软件GitHub - logseq/logseq: A privacy-first, open-source platform for knowledge management and collaboration. Download link: http://github.com/logseq/logseq/releases. roadmap: http://trello.com/b/8txSM12G/roadmap

好吧,算是在下我孤陋寡闻了 :joy: 我就喜欢知道的比我多的人 :grinning:

求资源。找了好久找不到

这个程序我就再分享一下,请尽快下载。

链接:https://pan.baidu.com/s/1WSinb36LeTE4hXK-k7BK0g
提取码:oznt

2 Likes