增量式爬虫
我们今天来说一个增量式爬虫 相信有很多的同学不太理解为什么要用增量式爬虫 增量式爬虫有什么样的作用 今天我就来为大家絮叨絮叨 增量式爬虫的意义是为了精准的拿到你想要的数据,好比说我们现在需要爬取某某网站,它的数据呢是实时更新的,我能只想要没有爬取过的数据怎么办呢,我们需要第3方库来帮助我们,我个人用的是redis数据库,我们可以对url进行比对,也可以对数据进行比对,这个根据需求来定制。 首先创建scrapy框架: scrapy startproject *** cd *** scrapy genspider *** baidu.com 这样我们的scrapy框架就创建完了,我们现在步入正轨,这个例子是以字段内容为比较对象的小例子 import scrapy from ..items import LxhItem from redis import Redis import hashlib class XhSpider(scrapy.Spider): name = 'xh' # allowed_domains = ['baidu.com'] start_urls = ['http://xiaohua.zol.com.cn/zhengren/'] #定义要爬取的url conn = Redis() #实例化redis def parse(self, response): li