反爬与反反爬
很多网站都有反爬机制,自从有了爬虫,反爬与反反爬的斗争就没停过,而且都在不断升级。 下面介绍一些常见的反爬与反反爬机制。 基于headers的反爬 基于用户请求的headers反爬是最常见的反爬机制。 在请求头headers中,包含很多键值对,服务器会根据这些键值对进行反爬。 1. User-Agent:请求使用的终端,正常为浏览器,如果使用爬虫,就会显示如python 反反爬策略:伪装浏览器 即在爬虫中添加headers,并在headers中添加浏览器 并且可通过频繁更换user-agent实现反爬 header={ ' User-Agent ' : ' Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko ' } 2. referer:防盗链 盗链:其他站点通过超链接等连接到我们的站点窃取我们的资源的行为称为盗链 referer请求头:代表当前访问是从哪个网页过来的 如我们的网站上有一个很好的图片,别人可以通过查看我们的链接直接用到他的网站上,此时我们如果设置referer,他就无法直接使用 具体解释请自行百度。 反反爬策略:在headers中添加防盗链,通过抓包查看具体值 request.add_header( ' Referer ' , ' http://www.abwuliu.com