第一个python网络爬虫总结
这个程序其实就是模仿用户的网页访问操作。 先从主页上获取大的商品分类,再一级一级地遍历所有的小分类。在最后得到商品列表,再遍历每个商品页,从商品页是抓取有效的信息。 这里,我对一些关键点做个总结,以便以后用到好回顾。 一,怎么访问网页? # 根据url获取网页正文 def get_webpage(url): headers = {\ 'User-Agent' : 'Mozilla/5.0 (X11; Linux i686; rv:34.0) Gecko/20100101 Firefox/34.0',\ 'Accept' : 'text/html',\ 'Connection' : 'keep-alive'} try: request = urllib2.Request(url, None, headers) response = urllib2.urlopen(request, timeout=120) webpage = response.read() response.close() return webpage #except urllib2.HTTPError, e: # print('HTTPError: ' + str(e.code)) #except urllib2.URLError, e: # print('URLError: ' + str(e.reason))