通用爬虫 | 易学教程

Scrapy

阅读更多关于 Scrapy

接着前一篇通过基础爬虫对问答频道文章的采集，下面我们试用一下Scrapy工具箱中几个不错的功能。由于大部分数据爬取工作具有相似性、一致性，所以Scrapy特别提供了若干个更高程度封装的通用爬虫类来协助我们更快速、高效的完成爬虫开发工作 #查看scrapy提供的通用爬虫(Generic Spiders) scrapy genspider -l CrawlSpider CrawlSpider 是通用爬虫里最常用的一个通过一套规则引擎，它自动实现了页面链接的搜索跟进，解决了包含但不限于自动采集详情页、跟进分类/分页地址等问题最后，我们仅仅需要开发实现 ’详情页解析器‘ 逻辑便能完成爬虫开发工作这里我们以爬取马蜂窝北京行程资源（ http://www.mafengwo.cn/xc/10065/ ）为例： #基于通用爬虫模板创建爬虫 scrapy genspider --template crawl xinchen www.mafengwo.cn/xc/10065 然后我们设计以下的具体爬虫逻辑，编辑文件 mafengwo/mafengwo/spiders/xinchen.py 为了方便演示，本例中我们把相关的爬虫主逻辑、持久化逻辑，数据建模逻辑等等都封装在该爬虫文件中 # -*- coding: utf-8 -*- import scrapy from scrapy