js动态页面下载

zg手册 之 scrapy 开发(5)-- downloader(下载器)开发

Deadly 提交于 2019-11-27 19:07:53
为什么需要开发下载器 定向抓取时,目标站点的数据不能单次请求获取,需要3,4次或者更多,请求之间有依赖关系,就是需要连续请求完成这个下载事物 前面讲过的 js 动态页面下载 ...... 注意事项 下载器的不可以影响 twisted 框架本身的异步机制 与 scrapy 原有的下载器调用接口一致,符合插件规范 其他插件依赖的状态要保留 下载器开发代码(我把注意的地方直接写在代码中,方便查看) 1. 新建项目 # 创建项目 scrapy startproject jstest # 创建蜘蛛 scrapy genspider -t basic testSpider 'sina.com.cn' 2. 修改蜘蛛文件 testSpider.py from scrapy.spider import Spider class TestspiderSpider(Spider): name = "testSpider" allowed_domains = ["sina.com.cn"] start_urls = ( 'http://www.sina.com.cn/', ) def parse(self, response): print response.body print 'download_latency:', response.meta['download_latency'] 3. 创建