代理ip

python requests 测试代理ip是否生效

有些话、适合烂在心里 提交于 2020-02-25 01:14:48
import requests '''代理IP地址(高匿)''' proxy = { 'http': 'http://117.85.105.170:808', 'https': 'https://117.85.105.170:808' } '''head 信息''' head = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36', 'Connection': 'keep-alive'} '''http://icanhazip.com会返回当前的IP地址''' p = requests.get('http://icanhazip.com', headers=head, proxies=proxy) print(p.text) 如果代理设置成功,最后显示的IP应该是代理的IP地址。 来源: https://www.cnblogs.com/hcy-fly/p/9364521.html

练习--爬取xici可用代理IP

放肆的年华 提交于 2020-02-18 21:06:21
通过爬虫实现xici可以使用的代理IP 端口 主要代码: #!/usr/bin/env python #coding:utf8 import telnetlib from urllib import request import re class getXici(): def __init__(self): self.url = "http://www.xicidaili.com" self.header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36'} self.page = "" def get_page(self): req = request.Request(url=self.url,headers=self.header) page = request.urlopen(req).read().decode('utf-8') self.page = page def is_available(self,ip, port): try: t = telnetlib.Telnet(ip, port) except Exception as e: status = 0 return

初级爬虫第三天

雨燕双飞 提交于 2020-02-17 10:24:40
主要内容: 付费IP的使用方式 Auth认证 cookie登录验证 requests模块 一、付费IP使用方式: 1.1 无论是免费IP还是付费IP,在使用之前,都需要测试一下,如果好使,再去使用IP爬取数据。 1.2 IP池:列表套字典 eg:[{"https": "IP1:端口1"}, {"http": "IP2: 端口2"}, {"https": "IP3: 端口3"}] 1.3 遍历IP池,利用遍历出来的IP创建IP处理器,再利用处理创建发送网络请求的opener对象 1.4 opener.open()中有一个参数timeout=x,即:x秒之后如果程序还没有反应,就算做超时,报超时,x默认为30 1.5 利用异常处理IP值不好用的报错或者超时 代码: 1 import urllib.request 2 3 爬取百度首页"https://www.baidu.com/" 4 def proxy_user(): 5 #1.目标网页URL 6 url = "https://www.baidu.com/" 7 #2. User-Agent 8 user_agent = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121

代理和正则表达式

戏子无情 提交于 2020-02-12 20:36:44
代理 1、代理作用 192.168.0.101 (1)突破自身IP 访问限制, 访问一些平时不能访问的站点。 (2)访问一些单位或团体内部资源: 比如使用教育网内地址段免费代理服务器, 就可以用于对教育网开放的各类FTP 下载上传, 以及各类资料查询共享等服务。 (3)提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区, 当有外界的信息通过时, 同时也将其保存到缓冲区中, 当其他用户再访问相同的信息时, 则直接由缓冲区中取屮信息传给用户, 以提高访问速度。 (4)、隐藏真实IP : 上网者也可以通过这种方法隐藏自己的IP , 免受攻击。对于爬虫来说, 我们用代理就是为了隐藏自身IP , 防止自身的被封锁。 2、代理的分类 (1)根据协议区分 根据代理的协议, 代理可以分为如下类别。 FTP 代理服务器:主要用于访问FTP 服务器, 一般有上传、下载以及缓存功能, 端口一般为21 、2121 等。 HTTP 代理服务器:主要用于访问网页, 一般有内容过滤和缓存功能, 端口一般为80 、8080 、3128 等。 SSL/TLS 代理:主要用于访问加密网站, 一般有SSL 或TLS加密功能( 最高支持128 位加密强度) , 端口一般为443 。 RTSP 代理:主要用于访问Real 流媒体服务器, 一般有缓存功能, 端口一般为554 。 Telnet 代理:主要用于telnet

Python 爬虫使用固定代理IP

早过忘川 提交于 2020-01-25 04:16:15
购买的固定代理IP一般都需要账号密码, 在网上找了几个使用方法,但是都报错,所以,就想了这个笨办法,如有好办法希望大家指点。 ''' 遇到问题没人解答?小编创建了一个Python学习交流QQ群:579817333 寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书! ''' import requests from requests . auth import HTTPBasicAuth proxy = { 'http' : 'http://ip:port' , 'https' : 'https://ip:port8' } head = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/50.0.2661.102 Safari/537.36' , 'Connection' : 'keep-alive' , 'Proxy-Authorization' : '...' # 在浏览器中获取此值 } p = requests . get ( 'http://icanhazip.com' , headers = head ) print ( p . content . decode ( 'utf-8' ) ) --

爬虫练习案例--使用代理IP

牧云@^-^@ 提交于 2020-01-19 19:26:51
前言 当同一个IP如果爬取过快或过多,机器就判断是爬虫行为,而不是正常访问行为,网站为了防止被爬虫,就会封锁IP。除了放慢爬虫速度,如sleep(1000)后再爬虫外,还可以采取使用代理IP的方法。 查询本机IP 方法1:打开百度,搜索“IP” 方法2:访问 http://httpbin.org/get 代码 import requests # 如果代理需要认证,再代理的前面加上用户名密码即可。 # proxy = 'username:password@60.186.9.233' proxy = '221.226.175.204:808' proxies = { 'http': 'http://' + proxy, 'https': 'https://' + proxy } try: res = requests.get('http://httpbin.org/get', proxies=proxies) print(res.text) except requests.exceptions.ConnectionError as e: print('error', e.args) 免费代理IP网站 西刺免费代理IP 快代理 其他 百度出来的本机网络IP与ipconfig出来的IpV4有什么区别? 参考 【博客园】ZivLi 原文: 爬虫——代理的使用 来源: CSDN 作者:

python搭建IP池

。_饼干妹妹 提交于 2020-01-19 18:05:20
,都说标题是文章的灵魂,想了半天没想到什么比较有创意的标题,只好百度了一个。啊哈哈哈哈哈哈,朕真是太机智了 这是一篇介绍如何使用python搭建IP池的文章,如果爱卿对此不感兴趣,那很抱歉,标题耽误了你宝贵的时间。 事情的起因是这样,前段时间我写了一篇介绍如何爬取小说的blog 【python那些事.No2】 ,在爬取的过程中,发现同一个IP连续只能获取前几页小说内容,原本是想搭建IP池绕过这个限制的,奈何项目上来了新任务,为了在被关进小黑屋之前把文章发布出来,就想了一个折中的办法–延时获取。 没想到文章发出来后,竟然还有人评论催更 搭建IP池。朕当时就龙颜大怒,长这么大朕何时受过这种气啊。从来都是朕催更那些小说作者,被别人催更还是头一遭 但是打又打不到,骂又骂不得,咋办?想了想那还是更吧。 众所周知,由于python爬虫这种简单易学的技术普及之后,为了网站的稳定运行和网站数据的安全,越来越多的网站对爬虫做各式各样的限制和反扒措施。其中,限制一定时间内同一IP的请求次数似乎已经成为了最常见的手段。 很多时候,使用延时获取的方式–‘在两次请求之间sleep一定的时间’ 可以解决网站对爬虫的限制。可是像朕这种年轻人,想要的现在就要,怎么办呢? 既然是对同一IP的限制,那就意味着两次请求的IP如果不同,此限制就形同虚设。 One way of thinking 去网上买代理IP

如何:对代理使用 IP 切换

与世无争的帅哥 提交于 2020-01-19 04:21:09
如何:对代理使用 IP 切换 如何:对代理使用 IP 切换 如何:对代理使用 IP 切换 Visual Studio 2005 其他版本 Visual Studio 2008 此主题尚未评级 评价此主题 IP 切换允许代理通过使用一个不同 IP 地址范围向服务器发送请求。这模拟了来自不同客户端计算机的调用。在针对负载平衡的网络场进行测试时,IP 切换非常重要。大多数负载平衡器使用客户端的 IP 地址在客户端与特定 Web 服务器之间建立关联。如果所有请求看上去都来自单个客户端,则负载平衡器不会平衡负载。若要在网络场中取得良好的负载平衡,那么请求来自一个 IP 地址范围便十分重要。 注意 IP 切换只能用于 Team Test Load Agent。有关更多信息,请参见 使用控制器、代理和远程测试机组 (Rig) 。 配置 IP 切换 IP 切换在“代理属性”对话框中进行配置。 注意 必须使用管理员特权运行代理服务,才能配置网卡。 配置 IP 切换 在“测试”菜单上,单击“管理测试控制器”。 将显示“管理测试控制器”对话框。 在“控制器”下拉列表中选择一个控制器。 在“代理”列表中选择一个代理。 单击“属性”按钮。 将显示“代理属性”对话框。 单击“启用 IP 切换”,为代理打开 IP 切换。 设置以下属性以配置 IP 切换: NIC 基址 起始范围 结束范围 子网掩码 验证 IP

获取客户端IP地址-考虑代理

﹥>﹥吖頭↗ 提交于 2020-01-15 19:25:27
来自森大科技官方博客 http://www.cnsendblog.com/index.php/?p=298 GPS平台、网站建设、软件开发、系统运维,找森大网络科技! http://cnsendnet.taobao.com 说明:本文中的内容是我综合博客园上的博文和MSDN讨论区的资料,再通过自己的实际测试而得来,属于自己原创的内容说实话很少,写这一篇是为了记录自己在项目中做过的事情,同时也想抛砖引玉。参考的博文及其作者在下文均有提及。待到自己以后对HTTP、TCP/IP等知识学深入了,一定再来这里深入讨论这个内容。 一、名词   首先说一下接下来要讲到的一些名词。   在Web开发中,我们大多都习惯使用HTTP请求头中的某些属性来获取客户端的IP地址,常见的属性是REMOTE_ADDR、HTTP_VIA和HTTP_X_FORWARDED_FOR。   这三个属性的含义,大概是如此:(摘自网上,欢迎指正)   REMOTE_ADDR:该属性的值是客户端跟服务器“握手”时候的IP。如果使用了“匿名代理”,REMOTE_ADDR将显示代理服务器的IP。   X-Forwarded-For:是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。     XFF的有效性依赖于代理服务器提供的连接原始IP地址的真实性,因此,

Java爬取51job_2.0

情到浓时终转凉″ 提交于 2020-01-13 11:20:02
  大三上快结束了,看看之前的Java爬虫代码,感觉还是需要改进改进,就写了这个爬虫2.0版本,虽然还是爬的51job,但是更加的低耦合了,还加入了代理池和多线程的内容,爬取速度有了质的提升。   2.0和1.0的差距非常大,基本上可以把2.0当成一个新的项目来做了,中间也踩了许多坑,遇到许多问题,也一步一步改进了许多地方。   虽然51job随便爬也不封ip,感觉代理没有那么重要,但是多写个代理说不定以后爬取其他网站能用到呢,之前有一天我dos攻击一个钓鱼网站的时候就用到了这个代理池,所以我觉得蛮好的。   代码: https://github.com/255-1/Spider51job ,下面开始介绍    总体介绍: 基本都用静态函数写的,除非涉及到多线程,爬虫嘛,面向过程就不错。   1)用本机ip爬取西刺代理第一页,然后检测这些ip是否可以用(高匿,延时低,可以使用),然后用ip多线程爬取后面的几百页,存入本地数据库,后面的爬取都是基于先用本机ip爬取,如果爬取失败(被封)就用代理尝试爬取。   2)爬取51job的职位url,根据提前配置好的关键字配置文件,爬取对应的 职位网址 ,因为会有大量无用信息(51job关键字会匹配到公司名),所以要保证爬取的joburl的职位名带有关键字信息,存入本地文件中。   3)用这些joburl,再去爬取里面的 职位信息