Python 与 网络爬虫
Python 与 网络爬虫 文章目录 Python 与 网络爬虫 爬虫的基本原理 获取网页 提取信息 保存数据 自动化程序 爬虫实践 -- 抓取电影排行 目标 准备 分析 设计 实现 调试 完成 Ajax 数据爬取 Ajax 简介 发送请求 解析内容 渲染网页 Ajax 分析方法 Python 模拟 Ajax 请求 本文由 CDFMLR 原创,收录于个人主页 https://clownote.github.io ,并同时发布到 CSDN。本人不保证 CSDN 排版正确,敬请访问 clownote 以获得良好的阅读体验。 爬虫的基本原理 爬虫是 获取 网页并 提取 和 保存 信息的 自动化程序 。 可以说,我们能在浏览器中看到的一切内容,都可以通过爬虫得到(包括那些由JavaScript渲染出来的网页)。 爬虫主要解决以下几个问题: 获取网页 构造一个请求并发送给服务器,然后接收到响应并将其解析出来。 我们可以用urllib、 requests 等库来帮助我们实现 HTTP请求操作,请求和响应都可以用类库提供的数据结构来表示,得到响应之后只需要解析数据结构中的 Body 部分即可,即得到网页的源代码。 提取信息 分析网页源代码,从中提取我们想要的数据。 最通用的方法是采用 正则表达式 提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。 使用 Beautiful