python 嵌套爬取网页信息
当需要的信息要经过两个链接才能打开的时候,就需要用到嵌套爬取。 比如要爬取起点中文网排行榜的小说简介,找到榜单网址: https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1 将榜单上的小说链接爬出来,在从小说链接里面爬小说简介 import pymysql import requests from hashlib import md5 import re import os #获取网页源代码 def get_one_page(url): # 设置请求头,防止被网站屏蔽 headers = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64)\ AppleWebKit/ 537.36 (KHTML, like Gecko) Chrome/ 58.0 . 3029.110 Safari/ 537.36 ' , } try : r = requests. get (url, headers= headers) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except requests