简介:
从某个网站抓取的古籍小汇集,主词条160838.
不知道数据正确错漏与否,还有些是有重复的.
只是个人打包网页的尝试.
制作水平有限,有任何错误,请多多包涵.
20250817
缘起:
有一天不知道在论坛哪里看到有大神说到打包进去是mdx,解压出来就是html,json
不知道是怎样打包,就想找个网站试一下.
网站名就不说了,避免麻烦.感谢网站提供好的内容.
刚开始直接把网页打包进mdd,
mdx就做个词头跳转.
结果mdictPC可以识别,无限词典无法识别.
只好把网页删除头尾一些标签,
把链接转换为mdx的格式,合并文件,打包mdx就可以了.
结论:
直接把html打包成mdx不成功,不知道大神是怎样做的.
最后,既然来都来了,就放个链接上来吧.
(网站的)css有两个,其中一个字体调大了一点
论坛就不上传了,免得污染论坛数据.
百度盘:
pan.baidu.com/s/1Rj0cuD5W_kp3WUjXo7ArnA 提取码:loyo
2 个赞
GD中无法显示,mdictpc中使用正常!就是殆知阁数据,但感觉文本质量比较好。不少书有目无内文,经部很多都是如此。目前还是个残品。总起来说,目前这个版本没有啥用处。鉴定完毕。想用的话,还是用阿弥陀佛制作的“中华古籍数据库”吧。
谢谢.
肯定不能和佛大的比.
只是下载某些内容,就顺便下多一点.
kking
5
我应该找到原网站了,关键词是new
那是之前遇到带有json的网页,想最大程度的保留json的完整性,
我原想整部mdx,用var data =json一镜到底
是不是很大胆
整部mdx
json一镜到底
所有人很兴奋
json派,mdx派很兴奋
一镜到底
一直说的是一镜到底
就挑战性太大了
一点都不能错啊
(揸把嘴)但是后来我还是放弃了(呵呵)
你知道最大问题是什么,当然这是一个专业问题,简单的说最大问题就是我不会写js展开json…
看了一下new网站,最后更新16号,今天楼主就整了1G多的mdx,估计原网页10个g了吧,这速度快啊,这MO值得揣摩学习
哈哈,看不懂.
都是偷别人的现成模板,自己不会搞.
1 个赞