python spider 爬虫

Python爬虫之web内容获取(一)

≯℡__Kan透↙ 提交于 2019-11-28 14:01:39
Python爬虫之web内容获取: 一:简单的向服务器发送请求方式: # -- coding:utf-8 -- ​ import urllib2 ​ 向指定的url 发送请求,并返回响应的类文件对象 ​ response = urllib2.urlopen("http://www.baidu.com") ​ 服务器返回的对象支持python文件对象的方法 ​ read()方法:读取文件的全部类容,返回字符串 ​ html = response.read() ​ print html 但这样的方式往往容易被反爬虫者发现,因此我们需要进一步的伪装。 反爬虫第一步: 首先,我们需要了解浏览器在向服务器发送请求时做了什么:这里我们可以用Fiddler抓包工具来实现下载安装配置好Fiddler(具体配置方法)后,当我们浏览器端向服务器发送请求时(如在浏览器访问 http://www.baidu.com ),在Fiddler抓包工具抓到的文件中对应的百度链接的文件所对应的此处便能得到如下的Header请求信息。 Fiddler抓包工具Header请求信息 # 请求方式(GET / POST /...) GET https://www.baidu.com?&t=1520930345744&sid=1455_13549_21088_20928 HTTP/1.1 ​ #