Data搜狗汉语39w数据,html,json,另附data中国搜索

搜狗汉语39whtml和json,html已爬成一行,掐头去尾,加个词头和</>就行了,查看全文是加密的,整不来,
纯json已格式化


image

另附data中国搜索,html的文件名为keyword,分页,遍历,链接点击之后的为加密的,整不来,就这个搜索结果页面看看一句话解释也不错,但是每两小时要验证码,不想搞了,
158w词库只撞了9000多个

正在上传:中国搜索加行号加分页.py…

链接:https://pan.baidu.com/s/1yGRcR6CQcQM-3tttx4WOCA
提取码:kkkk
7天有效,有心人自取
中国搜索加行号加分页.py (20.4 KB)

4 个赞

国搜那个查询页面已经打不开了。

1 个赞

弄了mdx,含发音600MB,图像12GB 总体积12.4GB
上传中。

MDict_PAvkQAWakB

3 个赞

图像是啥内容,看动图,只看到了视频的例子。

下载链接

1 个赞

如不需要语音,是不是可以不下那个mdd1文件。不影响整体运行吧。

刚试了下,已经很不错了,除了只有部分书证(查看全文那里,那里基本是例句,原本有些词不一定都带书证例句),释义部分基本没啥遗漏了。

目前国搜已经无法打开社科搜索入口了,是反制了吧。

哪个网址,小的mdd是语音

搜狗查看全文那个加密我看了下其实是用了自定义码表,配合自定义字体使用,请求的时候有个token给一个自定义字体,不知道是不是即时生成的,感觉这玩意应该很费服务器资源。但其实字体固定了曲线是不会变的,要解密最快方法是找到原字体,做个实际编码到曲线的映射,然后再根据他给的字体反向映射回来。

1 个赞

更新版本,链接在5楼