Scrapy 1.5.0之爬取规则
Spiders参数 spiders可以通过接收参数来修改其爬取行为。crawl 通过使用选项 -a 传递爬虫参数。 scrapy crawl myspider -a category=electronics spiders 在构造函数中接收参数: import scrapy class MySpider(scrapy.Spider): name = 'myspider' def __init__(self, category=None, *args, **kwargs): super(MySpider, self).__init__(*args, **kwargs) self.start_urls = ['http://www.example.com/categories/%s' % category] # ... 也可以通过Scrapyd schedule.json API传递spiders参数。 Generic Spiders(通用爬虫) 举个例子,在项目中假设在myproject.items中定义了一个TestItem类,如下图。 import scrapy class TestItem(scrapy.Item): id = scrapy.Field() name = scrapy.Field() description = scrapy.Field()