python爬虫学习笔记(二)
上一篇介绍了爬虫的基本用法,用来简单的爬取了一个网站,我们直接用网址就访问了一个网站,但这样是很不好的,有的网站这样也进不去,打个比方,就像我们知道某个人的家庭住址,我们想找她的时候直接就闯了进去,也没说我们是谁,也没和他说我们要来找他,这样可以吗?当然不行!所以我们访问网站时还应该把我们伪装一下,伪装成一个浏览器,这样我们就算是个正常用户了。 我们怎么来伪装呢?要执行更复杂的操作,我们需要给urlopen传入一个requst对象而不是一个简单的网址, import urllib . request #引入库 req = urllib . request . Request ( "https://www.baidu.cn" ) #创建request对象 response = urllib . request . urlopen ( req ) #访问网页 text = response . read ( ) . decode ( ) #解码 print ( text ) 而要实现我们伪装成浏览器的目的,我们还需要给request对象一个User-Agent的报头,这个User-Agent,是每个浏览器都有的一个东西,你可以按F12,在开发者工具的network里找到。 再说request对象,他可以接收多个参数 url(网址), data(用来传递post参数,默认空),