轻松使用python爬取豆瓣图书
题目: 老师安排我们爬取豆瓣图书,恰好想学,所以把爬取的过程按照顺序写下来,主要是留个痕迹。在文中我会把爬虫所需的所有代码以图片形式一一讲解,图片里的代码就是全部的爬虫代码!!!如果你懒得自己敲的话,我上传了代码在: 代码在此处 ,有需要的可以自取。 步骤一: 引入包 。我用的request和beautifulsoup4。request是进行http请求。而有一点前端知识,懂得css样式的人用beautifulsoup4进行页面解析比较方便。 步骤二: 添加header信息 。设置header信息,模拟成浏览器或者app欺骗反爬系统,避免418。我刚开始的时候没有设置头部等信息,导致被豆瓣网站识别出来了,给我返回了“<[response418]>”。这个header我是在网上找的,如果想设置自己浏览器的header信息,请自行百度,很简单。 步骤三: 获取网页信息且解析网页 ,我爬取的是网页是: 豆瓣图书—小说 。 同学们如果自己想看看解析的网页,可以在得到soup后,“print(soup.text)”打印一下解析后的网页 步骤四: 从解析的文本中通过select选择器定位目标,返回一个列表 。通过select()选择,返回的是一个列表!!!我先把代码给出来: 有同学会疑问select(“h2“)、select(”div.pub“)…这些是怎么来的。1.首先进入刚才的网页: