前言
当同一个IP如果爬取过快或过多,机器就判断是爬虫行为,而不是正常访问行为,网站为了防止被爬虫,就会封锁IP。除了放慢爬虫速度,如sleep(1000)后再爬虫外,还可以采取使用代理IP的方法。
查询本机IP
方法1:打开百度,搜索“IP”
方法2:访问http://httpbin.org/get
代码
import requests
# 如果代理需要认证,再代理的前面加上用户名密码即可。
# proxy = 'username:password@60.186.9.233'
proxy = '221.226.175.204:808'
proxies = {
'http': 'http://' + proxy,
'https': 'https://' + proxy
}
try:
res = requests.get('http://httpbin.org/get', proxies=proxies)
print(res.text)
except requests.exceptions.ConnectionError as e:
print('error', e.args)
免费代理IP网站
其他
- 百度出来的本机网络IP与ipconfig出来的IpV4有什么区别?
参考
【博客园】ZivLi 原文:爬虫——代理的使用
来源:CSDN
作者:Yolkwwww
链接:https://blog.csdn.net/sinat_36226553/article/details/104043870