Internet Encylopedia of Philosophy 据说很难抓取

Internet Encylopedia of Philosophy

制作为mdx难不难?

当然国内网站的手段更招惹不起
如中华书局的籍合网
http://abcircle.ancientbooks.cn/abcircle/article/detail/210
管理员回帖
新预警系统上线后,为防止恶意数据爬虫,对字数较多的单页,进行了复制比例的限制。由于系统正处于试运行阶段,具体的运行策略我们还在调整中。您目前的限制已经自动解除,后续的操作请尽量选取您需要的数据进行复制,减少整篇大量数据复制的情况,以免再次触发预警机制。

看起来不难,但是反爬这种要开始爬了才知道是什么程度

没有太大兴趣

建议hua大的培训班提醒一下学员:别懵懵懂懂拿国内网站练手

国情你懂的

肯定不难,因为目录都列好了,A-Z,你可以手动把目录链接弄下来,比如打开A,chrome里F12查看,把包含超链接的html复制出来,用文本编辑器批量编辑,只保留超链接或者文章名。最后再用爬虫脚本下载。

古籍网的限制有用么,开源浏览器内核 chromium了解一下,这就是最好的爬站工具。java 有 jcef

什么东西都要做了再确定。

你怎么知道我没做呢?

1 个赞

这种静态网页爬下来倒是其次,消耗时间的是修改内容和样式

那恭喜,我不知道你没做,可是也不知道你做了,你也没说你做了。

竟然还有数学公式 ( mathjax )。
不知道为什么下载下来都变成图片预览了。

据说mathjax 是个 online service,离线不好处理

有人手工制作了一版,不知道怎么样
Internet Encyclopedia of Philosophy, 2019 [Data: 05/12/2019]

也可以半手工半脚本制作的

把mathjax一模一样弄一份再mdd里面就好了,不过 MdictPC 不支持。

谢谢兄台制作。
那位是个老外,他找链接的方法跟老兄差不多,下载 图片和 pdf用的是WebCopy。 他说你可能漏了 "…/latex/cache"目录下的GIF图片。遗留问题是MathJax 一离线就只有 bitmap fonts

1 个赞

这里面哪里有pdf?

我没下载,不知道他的mdx里有没有。他可能是这么随口一说

我知道在哪了,不过不必包含PDF,因为只是一些指向 PDF文件 的超链接。

论坛那位仁兄制做的版本,据作者本人,'Mdict电脑端安卓端皆可用。但经我实验,安卓的深蓝和欧陆端都无法使用。。

深蓝确实不可以。