Python爬虫1：博客访问量

前言

Python中能够爬虫的包还有很多，但requests号称是“让HTTP服务人类”...口气不小，但的确也很好用。

本文是博客里爬虫的第一篇，实现一个很简单的功能：获取自己博客主页里的访问量。

当然了，爬虫一般肯定逃不掉要用正则表达式（regular expression），因此Python的re包也是十分常用的。

分析

打开博客园网站并登录，点击左边“我的随笔”：

点击F12可以查看网页源代码：

然后发现每一篇的阅读量表现为“阅读:”+数字，注意这里的冒号是英文，数字的位数不确定。

正则表达式中，数字用'\d'描述即可，

出现0-n次用'*'，出现0-n次用'+'，出现0-1次用'?'，

在这里，“阅读:”后面必定有数字，因此用'*'或'+'皆可以。

代码

import requests 
import re

url = 'https://cnblogs.com/maoerbao/p/'  #我所有随笔集合的网址
f = requests.get(url).text               #获取html页面内容，并转换成文本
a = re.findall('阅读:\d*',f)             #正则表达式，提取每篇的阅读量

zydl = 0
L = []
for i in a:
            ydl  = int(i[3:])
            zydl = ydl + zydl
            L.append(ydl)

print('阿尔伯塔的博客：\n')
print('总篇数:%d'%len(L))
print('总阅读量:%d'%zydl)
print('最大单篇阅读量:%d'%max(L))
print('最小单篇阅读量:%d'%min(L))

运行结果

来源：https://www.cnblogs.com/maoerbao/p/11518575.html

标签

python

python爬虫

python正则表达式

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!