【Python网络爬虫整理记录 D:04】——关于爬虫伪装中常见headers参数详解以及常见错误代码及错误原因
文章目录 常见Headers参数详解 Accept Accept-Language Accept-Encoding Cookie Referer User-Agent Content-Type Origin 常见错误代码及错误原因 User-Agent集合(列表形式) 常见Headers参数详解 Accept 请求报头域,用于指定客户端可接受哪些类型的的信息 需要注意的是它只是建议服务器,而并非就是你写成什么他就返回给你什么。 Accept-Language 指定客户端可接受的语言类型 Accept-Encoding 指定客户端可接受的内容编码 需注意其中一个gzip编码,有时候爬取内容返回一直是乱码,问题可能会处在这个参数,它表示客户端可接受压缩后的内容。 Cookie 也常用复数形式Cookies。这是最重要的请求头信息之一。网站为了辨别用户进行会话跟踪二存储在用户本地的数据。一般可以直接复制,对于一些变化的可以选择构造。 Referer 当浏览器向web服务器发送请求的时候,一般会带上Referer,标识这个请求是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理。用于统计访问量、防盗链处理等。 User-Agent 向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。在做爬虫时加上此信息,可以伪装为浏览器;如果不加