大量在线文本资料汇总

以前的网络充斥着大量文本资源,但自从阅读商业化以后,这类在线资源就变少了。很多文本只是临时看一下,所以不想下载。另外很多文本都很长,部分缓存到本地后很可能以后还要参考,所以不希望每次重复缓存相同的内容,所以这里最好要求文本文件有直链。象百度网盘一类的每次下载链接完全不同,会导致重复缓存,这里就排除了。另外文本可以压缩以节省存储,但压缩以单文件压缩格式为佳,这样用户无需复杂操作选择查看的具体文件。zip这类格式是给文件树打包的,这种格式就排除了。zstd brotli gzip xz 等压缩格式作用于单文件,处理简单透明,与直接访问文本几乎相同,是首先推荐的压缩格式。

https://gutenberge.org 有txt文本或html单文件
ctext.org 中文经典
mahavivo (vivo) · GitHub 不少仓库有大量文本

markdown 或者单文件 html 可以保留完整的图像信息,也很不错。请大家补充。

ctext 已经落后于时代了,属于外国人(Donald Sturgeon)自娱自乐的东西。早年他收集的先秦汉魏文献质量还不错,尚能参考,后来扩大范围,就成了泥沙俱下,萝卜快了不洗泥。最不可忍的是用垃圾OCR引擎把古籍图像识别了一遍,满目错误,也公开发布在互联网上。作为公益网站,这些或许也可以接受,毕竟用爱发电嘛,但最近好像如果不注册登录,很多资源的访问权限都不给了。

现在如果对中文古籍感兴趣,“识典古籍” www.shidianguji.com 是个不错的选择,数据量大(近5万种),文本质量也基本过关,但只能在线使用。