之前都是使用提前准备好的文件来获取数据,时效性很差。
为了更有效、更快地获取并利用网络信息并工作提高效率,出现了网络爬虫。
利用网络爬虫实时获取城市的空气质量指数。
什么是网络爬虫?
自动抓取互联网信息的程序;利用互联网数据进行分析、产品开发。
步骤:
1、通过网络链接获取网页内容
2、对获取的网页内容进行处理
requests模块
requests模块是一个简洁且简单的处理HTTP请求的工具
支持非常丰富的链接访问功能,包括URL获取,HTTP会话,Cookie记录等。
requests网页请求
函数 | 含义 |
get() | 对应HTTP的GET方式 |
post() | 对应HTTP的POST方式,用于传递用户数据 |
requests对象属性
函数 | 含义 |
status_code | HTTP请求的放回状态,200表示链接成功,400表示失败。 |
text | HTT相应内容的字符串形式,即url对应的页面内容 |
直接上代码:
"""
作者:lanxingbudui
日期:2020-02-24
功能:AQI计算
版本:5.0
"""
import requests
def get_html_text(url):
"""
返回url的文本
"""
r = requests.get(url, timeout=30)
print(r.status_code)
return r.text
def main():
"""
主函数
"""
city_pinyin = input('请输入城市拼音:')
url = 'http://pm25.in/' + city_pinyin
url_text = get_html_text(url)
aqi_div = '''<div class="span12 data">
<div class="span1">
<div class="value">
'''
index = url_text.find(aqi_div)
begin_index = index + len(aqi_div)
end_index = begin_index + 2
aqi = url_text[begin_index: end_index]
print('空气质量为:{}'.format(aqi))
if __name__ == '__main__':
main()
pycharm中没有requests模块,在import requests模块是报错。解决方法如下:
1、打开pycharm软件,点击file-->点击setting
2、在目录下点击Project Interpreter,在目录的右侧,点击右上方的+
3、在输入框中输入requests,点击安装(提示sucessful时,表名安装第三方库成功)
ps:在pycharm中安装其他第三方库是一样的步骤
来源:CSDN
作者:蓝星部队
链接:https://blog.csdn.net/lanxingbudui/article/details/104471687