爬虫实现爬取牛客网数据结构试题
1 目标 爬取牛客网上关于《数据结构》的试题。 试题链接 进入网页可以看到,如果选择《数据结构》的某个知识点组卷,一次最多只能出30题。 因此,想法就是用程序一次将30题全部爬下。随后生成新的试卷再进行爬虫。 2 实现思路 2.1 最初思路 访问第一题的url 爬取试题 找到下一题的url后,重复1.2操作,直到爬完30题 很遗憾,打开devtools看试题页的元素,发现必须先登录才能有试题页面, 因此问题来到了登录上。 用devtools看登录过程,没有相应的帐号、密码信息,因此无法用帐号密码post方式登录。但是注意到登录页有cookie,如下图右侧,故可采用cookie方式登录。 另外发现该页面有全部试题的url,因此新的方案为 2.2 新思路 通过cookie访问第一题url,获得全部试题的url 依次访问每题的url,爬取 3 代码 # -*- coding: utf-8 -* """ 目标,爬取全部的题目以及答案 1. 利用cookie访问网页,记录全部的题目id并记录在内存中 需要把标签的属性记下来 2. 依次访问这些题目的网页,爬取问题选项和答案 3. 存储到本地文件 """ import requests from lxml import etree import re def pageid ( url , cookie ) : headers = { 'User