爬虫反爬

时光总嘲笑我的痴心妄想 提交于 2019-12-04 15:19:32

反爬技术:

1. UA反爬:携带ua,构建有效ua池;
2. Ip限制:限制同一ip的访问频率,download_delay =8,代理ip;
3. 数据藏在js脚本:一般使用re提取数据;
4. ajax请求(动态数据):可以使用selenium或者pypepeer,但是效率太低,影响机器性能,
推荐直接访问接口获取数据。
5. 验证码:
  1 数字+字母 验证码,opencv图像识别技术,打码平台
      2 滑动验证码:...

6. js逆向:常见加密有md5,rsa(非对称加密),des(对称加密),base64编码,js混淆(sojson.v5);
7. 字体加密:找到字体与编码的映射关系表;
8. 数据编码问题:gbk,gbk2312,unicode,url编码,html特殊字符,以及混合编码问题;

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!