Ajax爬取动态数据和HTTPS自动默认证书
Ajax数据爬取 在spider爬取数据的过程中,有些网页的数据是利用Ajax动态加载出来的,所以,在网页源代码中可能不会看到这一部分的数据,因此,我们需要使用另外的方式进行数据多爬取。 以豆瓣电影的网页源码获取为例 https://movie.douban.com/ ,我们查看网页源代码,会发现网页中所包含的数据根本不在源代码中,比如查询囧妈,会显示查询结果为0。这时候我们就要注意他可能是使用Ajax进行动态加载的数据。 F12进入开发者工具,按照下图步骤进行查看 双击第3步骤中的链接,会发现有一些tag标签,最后会发现有一些数据包含其中。 有数据的这些连接就是Ajax动态加载的结果了。下面有一个小例子进行简单的运用。 1 ''' 2 @Description: 爬取异步加载数据——以豆瓣网为例 3 @Version: 1.0 4 @Autor: Montoin Yan 5 @Date: 2020-02-01 18:18:05 6 @LastEditors : Montoin Yan 7 @LastEditTime : 2020-02-03 18:50:01 8 ''' 9 from urllib import parse 10 from urllib.request import urlopen,Request 11 import simplejson 12