练习抓取淘宝商品信息

怎甘沉沦 提交于 2021-02-13 11:53:38

##准备 查看淘宝的页面是不是静态页面,结果是静态页面。 想要抓取的是淘宝搜索某个商品的信息,所以要找到淘宝的搜索接口,经过观察可以看到接口可以这样解决:

word = '书包'
url = 'https://s.taobao.com/search?q=' + word

其实抓取淘宝主要是想加强自己对正则表达式的理解与运用的,于是决定用requests+re来完成此次练习。 ##调试 ####抓取网页 调试的第一步获取网页的源代码就遇到了问题,真是不幸。于是开始痛苦的调试过程:

  • 在头部信息中添加浏览器信息 结果:失败
  • 在头部信息中添加referer 结果:失败
  • 在头部信息中添加cookie 结果:返回结果有了变化,于是很高兴的去把requests发起的请求改成session会话发起的请求,结果最后发现虽然和以前返回的内容变了,但源代码还是错误的,简直崩溃,不知道用了什么反爬虫技术。
  • 终极武器----selenium 用这个直接调用真实的浏览器对其访问,终于不会出错了(这还是要出错,真的是无fuck可说了),但这个要启动浏览器,速度可能会很慢,所以我把源代码保存到了本地,避免重复访问浪费时间。

保存网页

保存的话用二进制的形式保存,不会出现一些乱七八糟的编码错误,而且用浏览器打开的时候可以显示中文,但用Python读取的时候,显示不出来中文,需要解码才能显示中文,可能原因是浏览器打开文件的时候自动解码的。 ####正则表达式查找 把网页保存到本地后,可以将其读取保存到一个变量中,然后就可以对其进行操作了。个人感觉对于爬虫的话,正则表达式最常用的方法应该是findall方法了吧,为了节省时间,可以先把正则表达式编译,然后再对具体的文本查找。示例:

rst = re.search(r'[1-9]\d{5}', 'bit 100081')  #函数式用法:一次性操作

pat = re.compile(r'[1-9]\d{5}')  #面向对象用法:编译后多次操作
rst = pat.search('bit 100081')

正式开始查找的时候,想把价格先找出来,用的是这行代码:

pat = re.compile(r'.*?<strong.*?>(.*?)</strong>.*?')

可以实现想要的功能。在这过程中遇到两个问题,一个是\d只能匹配到整数,并不能匹配到有小数点的数,所以换成了.*?;还有一个是正则表达式速度太慢了,虽然只是一个网页,但是大小有八百多k,也算是几十万的内容了,一次匹配竟然要八分钟,受不了,可能我的正则写的也不好,但是也掩饰不了它慢的本质了。于是我决定放弃用正则表达式来提取这个网页的内容。 ##战略改变 技术不行,虽然是静态网页,但是自己并不能用requests获取到正确的网页,只能改用selenium;正则表达式查找太慢,还是用beautifulsoup好。于是从requests+re变成了selenium+beautifulsoup来对网页进行爬取。 ##selenium库调用浏览器访问网页 比较简单,几行代码搞定对网页的访问。需要注意的是,要等待上那么一段时间让浏览器把页面给加载完成。

try:
		browser.get(url)
		time.sleep(3)
		page = browser.page_source
		return page.encode('utf-8').decode('utf-8')
	except:
		return ''

##用bs库提取信息 对价格信息的提取比较简单,有唯一的类属性,可以准确定位到;而对于名称的定位,类属性较多,不过也没啥大碍,全部写进去就行了。唯一麻烦的是它的名称是分开的,不过其实其他的东西是假的,其实就在一个标签的string属性,至于内容不在一起,其实都是空格,用字符串的strip方法轻松搞定。下面的代码是定位到所需标签的父标签:

price_div = soup.find_all('div', class_='g_price-highlight') #div[0].strong.text
name_div = soup.find_all('div', class_='row row-2 title')	#div[0].span.text.strip()

##总结 因为对beautifulsoup的使用算是比较熟练的了,所以后面的工作非常顺利的完成了。造成最大麻烦就是找不到淘宝的反爬虫技术到底是什么,技术不够,有点不爽。 附上源代码:

from selenium import webdriver
import time
from bs4 import BeautifulSoup

def get_page(url, browser):
	try:
		browser.get(url)
		time.sleep(10)
		page = browser.page_source
		return page.encode('utf-8').decode('utf-8')
	except:
		return ''

def parse_page(html):
	soup = BeautifulSoup(html, 'html.parser')
	return soup 

def get_message(soup, glist):
	price_div = soup.find_all('div', class_='g_price-highlight') #div[0].strong.text
	name_div = soup.find_all('div', class_='row row-2 title')	#div[0].span.text.strip()
	for i in range(len(price_div)):
		glist.append([name_div[i].a.text.strip(), price_div[i].strong.text])

def main():
	word = '书包'
	url = 'https://s.taobao.com/search?q=' + word	#https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&s=88
	br = webdriver.Chrome()

	html = get_page(url, br)
	soup = parse_page(html)
	glist = []	
	get_message(soup, glist)
	print(glist)
	br.close()
	
main()
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!