无锡上网站建设,北京网站建设建站,国外手做网站,手机怎么制作网站教程视频文章目录 1. 写在前面2. 请求分析3. 断点分析4. 扣加密JS5. Python爬虫代码实现 【作者主页】#xff1a;吴秋霖 【作者介绍】#xff1a;Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作#xff01; 【作者推荐】#xff… 文章目录 1. 写在前面2. 请求分析3. 断点分析4. 扣加密JS5. Python爬虫代码实现 【作者主页】吴秋霖 【作者介绍】Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作 【作者推荐】对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》 还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文章 1. 写在前面 先前写过一篇关于APP端自动化方案的文章对于基础数据获取的话相对还是比较稳定的当时单台设备测试一天数据量在1W单账号未被风控感兴趣的可以移步阅读使用Python爬取某查查APP端Appium自动化篇
如果除了基础数据想要获取更多类型的数据风险信息、知识产权、法律诉讼…可以直接从Web端入手请求头参数加密Web的话主要还是对账号的全方面风控策略 2. 请求分析
抓包分析大部分需要VIP权限所以我这里找了一个非VIP数据项查看的接口经营风险信息。请求可以看到在Headers里面有两个参数是密文如下所示 X-Pid参数的值在网页源代码即可获取无需分析如下所示 3. 断点分析
分析另一个加密参数是一个键值对的数据Key跟Value都是密文这里通过XHR跟堆栈以及全距搜索的方式都可以定位到Headers处理部分的JS代码如下所示 如上图点击a.default跳转到请求头Key的加密具体方法 点击r.default跳转到请求头Value的加密具体方法 其中o.default是加密算法先分析Key跟Value的加密算法o.default在JS中可以看到WebPack加载了856562跟着断点继续走o.default的加密如下所示 SHA512的加密函数借助JS内CryptoJS一行代码即可实现如下所示
// HMAC SHA512加密函数
function hmacSHA512(data, key) {return CryptoJS.HmacSHA512(data, key).toString();
}a.default是干啥的是数据处理JS代码如下所示 如上代码o.default.n跟o.default.codes取值字典内字段内容如下 如上显示这里的o.default是一个字典定义实现如下
o {}
o.default {n: 20,codes: {0: W,1: l,2: k,3: B,4: Q,5: g,6: f,7: i,8: i,9: r,10: v,11: 6,12: A,13: K,14: N,15: k,16: 4,17: L,18: 1,19: 8 }
}4. 扣加密JS
通过上面断点分析找到了Headers请求头内Key、Value的加密实现代码以及加密代码内的其他调用方法最终加密算法如下
const CryptoJS require(crypto-js);// HMAC SHA512加密函数
function hmacSHA512(data, key) {return CryptoJS.HmacSHA512(data, key).toString();
}// 默认的配置和编码映射
const config {n: 20,codes: {0: W, 1: l, 2: k, 3: B, 4: Q,5: g, 6: f, 7: i, 8: i, 9: r,10: v, 11: 6, 12: A, 13: K, 14: N,15: k, 16: 4, 17: L, 18: 1, 19: 8}
};// 根据给定的字符串生成编码
function generateCode(str) {let result ;for (let char of str) {const code char.charCodeAt() % config.n;result config.codes[code];}return result;
}// 生成密钥
function generateKey(path, data {}) {const encodedPath encodeURIComponent(path).toLowerCase();const encodedData JSON.stringify(data).toLowerCase();const hashedPathData hmacSHA512(encodedPath encodedData, generateCode(encodedPath)).toLowerCase();return hashedPathData.substr(8, 20);
}// 生成值
function generateValue(path, data {}, tid ) {const encodedPath encodeURIComponent(path).toLowerCase();const encodedData JSON.stringify(data).toLowerCase();return hmacSHA512(encodedPath pathString encodedData tid, generateCode(encodedPath)).toLowerCase();
}// 主函数运行
function run(path, tid, data {}) {const headers {};headers[generateKey(path, data)] generateValue(path, data, tid);return headers;
}// 测试数据
const tid 53f97a8d50bcf99d4a9a3a36c6cdd9c2; //企业加密ID
// 数据接口
const path https://www.qcc.com/api/datalist/zhuanlilist;
const jsonData {keyNo: 6b242b475738f45a4dd180564d029aa9,
};console.log(run(path, tid, jsonData));
上述JS加密算法代码中generateCode函数实现的是a.default的数据操作处理hmacSHA512函数实现的是o.default的加密方法
运行测试上面Key、Value的加密算法程序结果如下所示 5. Python爬虫代码实现
import re
import execjs
import requests# cookies信息自行设定
cookies {qcc_did: ,UM_distinctid: ,acw_tc: ,QCCSESSID: ,_uab_collina: ,CNZZDATA1254842228:
}def load_javascript_function():with open(./qcc_k_v.js, r, encodingutf-8) as file:js_code file.read()return execjs.compile(js_code)def generate_headers(url, pid, tid, json_dataNone):headers {x-pid: pid} # 其他headers请求头信息自行补充path re.findall(r(/api.*), url)[0]js_ctx load_javascript_function().call(run, path, tid, json_data)for key, value in js_ctx.items():headers[key] valuereturn headersdef make_post_request(url, pid, tid, json_dataNone):headers generate_headers(url, pid, tid, json_data)return requests.post(url, cookiescookies, headersheaders, jsonjson_data)def make_get_request(url, pid, tid):headers generate_headers(url, pid, tid)return requests.get(url, cookiescookies, headersheaders)if __name__ __main__:# 企业加密唯一ID自行选择测试key_no 3f603703d59a04cbe427e5825099a565pid # HTML中搜索并自行填充tid # HTML中搜索并自行填充# 示例GET请求get_url https://www.qcc.com/api/datalist/guarantorlist?keyNo3f603703d59a04cbe427e5825099a565print(make_get_request(get_url, pid, tid).json())# 示例POST请求post_url https://www.qcc.com/api/datalist/zhuanlilistjson_data {keyNo: 3f603703d59a04cbe427e5825099a565}print(make_post_request(post_url, pid, tid, json_data).json())以上是最终的爬虫代码根据注释完善即可测试经营风险信息、知识产权接口如下 好了到这里又到了跟大家说再见的时候了。创作不易帮忙点个赞再走吧。你的支持是我创作的动力希望能带给大家更多优质的文章