使用requests爬取拉勾网python职位数据
爬虫目的 本文想通过爬取 拉勾网 Python相关岗位数据,简单梳理 Requests 和 xpath 的使用方法。 代码部分并没有做封装,数据请求也比较简单,所以该项目只是为了熟悉requests爬虫的基本原理,无法用于稳定的爬虫项目。 爬虫工具 这次使用 Requests 库发送http请求,然后用 lxml.etree 解析HTML文档对象,并使用 xpath 提取职位信息。 Requests简介 Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取。 官网里介绍说:Requests is an elegant and simple HTTP library for Python, built for human beings. Requests优雅、简易,专为人类打造! 总而言之,Requests用起来简单顺手。 Requests库可以使用 pip 或者 conda 安装,本文python环境为py3.6。 试试对百度首页进行数据请求: # 导入requests模块 import requests<br> # 发出http请求 re = requests.get( "https://www.baidu.com/" ) # 查看响应状态 print(re.status_code) # 查看url print(re