东方财经财富号爬虫流程(4) -- ip 代理池组件

只谈情不闲聊 提交于 2019-12-20 02:50:58

组件

ip 代理组件作为一个单独的公共模块方便复用:
在这里插入图片描述

ip 代理对象

将每一个 ip 代理抽象为一个类:
在这里插入图片描述

ProxyPool

初始化

在这里插入图片描述

爬取

在这里插入图片描述
将 爬取 ip 的实现委托给 proxy_strategy (GetProxyStrategy 类的实例)。

爬取并且定期的健康检查

在这里插入图片描述

在这里插入图片描述

随机选取可用 ip

在这里插入图片描述

GetProxyStrategy

真正解析网站获取 ip 的类。 如果我们买了自己的 ip 代理,可以替换掉这里。 具体看代码吧,这里不再截图。

加入中间件

在 middlewares 中加入代理中间件:
在这里插入图片描述
在这里插入图片描述

更新时间: 2019-12-19

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!