requests高级部分
回顾 bs4 1.实例化一个对象 2.方法或者属性进行数据提取 标签定位: soup.tagName 属性定位:soup.find('tagName',class_='xxx')/find_all() select('层级') string/text tag['src'] xpath: 属性定位://tagName[@class="xxxx"] 索引定位://tagName[1] 取文本:/text() //text() 取属性://img/@src requests高级部分 代理 cookie 验证码的识别 模拟登陆 代理 代理概念:代理服务器。 作用:接受请求==》请求转发。 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接收到的请求对应ip的一个改变。 为什么要使用代理改变请求的ip地址? 爬虫程序在短时间内对指定的服务器发起了一个高频的请求,则请求对应的ip可能会被目的服务器禁止。 代理的一些基础知识: 代理的匿名度: 透明代理:目的服务器知道你使用了代理机制并且也知道你的真实IP 匿名代理:知道使用了代理机制,但是不知道你的真实ip 高匿代理:不知道使用了代理,也不知道你的真实ip 代理的类型: http https 免费代理ip: 快代理 西祠代理 www.goubanjia.com 代理精灵 需求:测试一下代理是否会生效 准备: 代理ip和端口号