代理和正则表达式

戏子无情 提交于 2020-02-12 20:36:44

代理

1、代理作用
192.168.0.101
(1)突破自身IP 访问限制, 访问一些平时不能访问的站点。
(2)访问一些单位或团体内部资源: 比如使用教育网内地址段免费代理服务器, 就可以用于对教育网开放的各类FTP 下载上传, 以及各类资料查询共享等服务。
(3)提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区, 当有外界的信息通过时, 同时也将其保存到缓冲区中, 当其他用户再访问相同的信息时, 则直接由缓冲区中取屮信息传给用户, 以提高访问速度。
(4)、隐藏真实IP : 上网者也可以通过这种方法隐藏自己的IP , 免受攻击。对于爬虫来说, 我们用代理就是为了隐藏自身IP , 防止自身的被封锁。

2、代理的分类
	(1)根据协议区分
	根据代理的协议, 代理可以分为如下类别。
	FTP 代理服务器:主要用于访问FTP 服务器, 一般有上传、下载以及缓存功能, 端口一般为21 、2121 等。
	HTTP 代理服务器:主要用于访问网页, 一般有内容过滤和缓存功能, 端口一般为80 、8080 、3128 等。
	SSL/TLS 代理:主要用于访问加密网站, 一般有SSL 或TLS加密功能( 最高支持128 位加密强度) , 端口一般为443 。
	RTSP 代理:主要用于访问Real 流媒体服务器, 一般有缓存功能, 端口一般为554 。
	Telnet 代理:主要用于telnet 远程控制( 黑客人侵计算机时常用于隐藏身份),端口一般为23 。
	POP3/SMTP 代理:主要用于POP3/SMTP 方式收发邮件, 一般有缓存功能, 端口一般为110 / 25 。
	SOCKS 代理:只是单纯传递数据包, 不关心具体协议和用法, 所以速度快很多, 一般有缓存功能, 端口一般为1080 。SOCKS 代理协议又分为SOCKS4 和SOCKS5 , 前者只支持TCP ,而后者支持TCP 和UDP , 还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCKS4 能做到的SOCKS5 都可以做到, 但SOCKS5 能做到的SOCKS4 不一定能做到。
	(2)根据匿名程度区分
	根据代理的匿名程度, 代理可以分为如下类别。
	高度匿名代理: 会将数据包原封不动地转发, 在服务端看来就好像真的是一个普通客户端在访问, 而记录的IP 是代理服务器的IPO
	普通匿名代理: 会在数据包上做一些改动, 服务端上有可能发现这是个代理服务器, 也有一定几率追查到客户端的真实伊代理服务器通常会加人的HITP 头有HTTP_VIA 和HTTP_X_FORWARDED FOR 。
	透明代理:不但改动了数据包, 还会告诉服务器客户端的真实IPO 这种代理除了能用缓存技术提高浏览速度, 能用内容过滤提高安全性之外, 并无其他显著作用, 最常见的例子是内网中的硬件防火墙。
	间谍代理:指组织或个人创建的用于记录用户传输的数据, 然后进行研究、监控等目的的代理服务器。
3、代理的设置
	proxies = {
		'http':'http://114.99.11.179:9999',#http和https都可以用http作为key
	}
	response = requests.get/post(proxies = proxies)

正则

(一)元字符
1、匹配边界
在这里插入图片描述
2、表示重复次数
在这里插入图片描述
3、匹配文字
在这里插入图片描述
(二)re模块
1、re模块使用步骤
#(1)导包
import re
#(2)将正则表达式编译成一个pattern对象
pattern = re.compile(
r’正则表达式’,
‘匹配模式’,#可以不指定,默认就按正则表达式本来的含义进行匹配。
)
正则匹配模式:
re.S----.可以匹配换行符
re.I—忽略大小写
#(3)pattern对象的方法(match,search、findall)匹配字符串。
match对象的属性:
match.group()等价于match.group(0)----返回匹配结果内容
match.span()–匹配范围
match.start()
match.end()

	2、pattern对象的方法
		(1)match方法:默认从头开始匹配,只匹配一次,返回一个match对象
			Match对象 = pattern.match(
				string,#要匹配的目标字符串
				start,#要匹配目标字符串的起始位置(可选)
				end#结束位置(可选)
			)
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!