中国大学MOOC —— 学习笔记(一)
注:本文仅是个人的学习笔记,内容来源于中国大学mooc《Python网络爬虫与信息提取》课程 一 京东商品页面爬取 import requests url = " https://item.jd.com/16392426155.html " try : r = requests.get(url) r.raise_for_status() # 检查访问信息的状态码,200表示正确 r.encoding = r.apparent_encoding # 将编码改为可以显示的编码 print (r.text[:1000 ]) except : print ( " 爬取失败 " ) 二 亚马逊商品页面的爬取 1 用一个字典kv保存需要修改的头部信息。 2 获取头部信息: >>> r.request.headers { ' User-Agent ' : ' python-requests/2.18.4 ' , ' Accept-Encoding ' : ' gzip, deflate ' , ' Accept ' : ' */* ' , ' Connection ' : ' keep-alive ' } 3 访问url时,修改头部信息 import requests url = " https://www.amazon.cn/dp/B074JV6Y48/ref=gwgfloorv1_BMVD