[Python爬虫]scrapy-redis快速上手(爬虫分布式改造)
作者的话 对Python爬虫如何实现大批量爬取感兴趣的读者可以看下scrapy爬虫框架,并且使用本文的scrapy-redis将你的爬虫升级为分布式爬虫。 前言 阅读本文章,您需要: 了解scrapy爬虫框架,知道scrapy的基本使用,最好已经有了可以单机运行的scrapy爬虫。 了解scrapy-redis可以用来干嘛。 已经尝试了一些反反爬措施后仍然觉得爬取效率太低。 已经看了无数scrapy-redis文章,却和我一样不得要领。(自己太笨) 已经看了无数scrapy-redis文章,被辣鸡文章坑的生活不能自理,到现在还没配置好。(可能还是自己太笨) 提示:本文为快速上手文章,有些操作的具体步骤不详细讲,自行百度通用解法,省略的部分我认为你可以自行解决,如果遇到问题,请留言提问 使用scrapy-redis将scrapy改造为分布式 安装需要的python库和数据库 安装scrapy-redis:pip install scrapy-redis 安装redis:可以仅在master(主)端安装 安装其他数据库(可选):mysql,mangoDB,用来保存大量数据,当然也可以选择不安装。用其他方法处理数据。 提示:请注意版本问题,不要过低。 配置redis master(主)上的redis安装后,需要做以下几件事: 配置redis.conf设置从外网访问:#bind 127.0