kking
1
搜狗汉语39whtml和json,html已爬成一行,掐头去尾,加个词头和</>就行了,查看全文是加密的,整不来,
纯json已格式化
另附data中国搜索,html的文件名为keyword,分页,遍历,链接点击之后的为加密的,整不来,就这个搜索结果页面看看一句话解释也不错,但是每两小时要验证码,不想搞了,
158w词库只撞了9000多个
正在上传:中国搜索加行号加分页.py…
链接:https://pan.baidu.com/s/1yGRcR6CQcQM-3tttx4WOCA
提取码:kkkk
7天有效,有心人自取
中国搜索加行号加分页.py (20.4 KB)
4 个赞
弄了mdx,含发音600MB,图像12GB 总体积12.4GB
上传中。

3 个赞
茕鬼爱折腾
6
如不需要语音,是不是可以不下那个mdd1文件。不影响整体运行吧。
茕鬼爱折腾
7
刚试了下,已经很不错了,除了只有部分书证(查看全文那里,那里基本是例句,原本有些词不一定都带书证例句),释义部分基本没啥遗漏了。
搜狗查看全文那个加密我看了下其实是用了自定义码表,配合自定义字体使用,请求的时候有个token给一个自定义字体,不知道是不是即时生成的,感觉这玩意应该很费服务器资源。但其实字体固定了曲线是不会变的,要解密最快方法是找到原字体,做个实际编码到曲线的映射,然后再根据他给的字体反向映射回来。
1 个赞