Web Scraper 翻页——抓取分页器翻页的网页(Web Scraper 高级用法)| 简易数据分析 12
这是简易数据分析系列的 第 12 篇 文章。 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说 修改网页链接加载数据 、 点击“更多按钮“加载数据 和 下拉自动加载数据 。今天我们说说一种更常见的翻页类型—— 分页器 。 本来想解释一下啥叫分页器,翻了一堆定义觉得很繁琐,大家也不是第一年上网了,看张图就知道了。我找了个功能最全的例子,支持数字页码调整,上一页下一页和指定页数跳转。 今天我们就学学,Web Scraper 怎么对付这种类型的网页翻页。 其实我们在本教程的第一个例子, 抓取豆瓣电影 TOP 排行榜 中,豆瓣的这个电影榜单就是用分页器分割数据的: 但当时我们是找网页链接规律抓取的,没有利用分页器去抓取。因为当一个网页的链接变化规律时,控制链接参数抓取是实现成本最低的;如果这个网页进可以翻页,但是链接的变化不是规律的,就得去会一会这个分页器了。 说这些理论有些枯燥,我们举个翻页链接不规律的例子。 8 月 2 日是 蔡徐坤 的生日,为了表达庆祝,在 微博 上粉丝们给坤坤刷了 300W 的转发量,微博的转发数据正好是用分页器分割的,我们就分析一下微博的转发信息页面,看看这类数据怎么用 Web Scraper 抓取。 这条微博的直达链接是: https://weibo.com/1776448504/I0gyT8aeQ?type=repost