Scrapy
接着前一篇通过基础爬虫对问答频道文章的采集,下面我们试用一下Scrapy工具箱中几个不错的功能。 由于大部分数据爬取工作具有相似性、一致性,所以Scrapy特别提供了若干个 更高程度封装的通用爬虫类 来协助我们更快速、高效的完成爬虫开发工作 #查看scrapy提供的通用爬虫(Generic Spiders) scrapy genspider -l CrawlSpider CrawlSpider 是通用爬虫里最常用的一个 通过一套规则引擎,它自动实现了页面链接的搜索跟进,解决了包含但不限于自动采集详情页、跟进分类/分页地址等问题 最后,我们仅仅需要开发实现 ’详情页解析器‘ 逻辑便能完成爬虫开发工作 这里我们以爬取马蜂窝北京行程资源( http://www.mafengwo.cn/xc/10065/ )为例: #基于通用爬虫模板创建爬虫 scrapy genspider --template crawl xinchen www.mafengwo.cn/xc/10065 然后我们设计以下的具体爬虫逻辑,编辑文件 mafengwo/mafengwo/spiders/xinchen.py 为了方便演示,本例中我们把相关的爬虫主逻辑、持久化逻辑,数据建模逻辑等等都封装在该爬虫文件中 # -*- coding: utf-8 -*- import scrapy from scrapy