爬虫实现爬取牛客网数据结构试题

不问归期 提交于 2020-03-04 22:15:23

1 目标

爬取牛客网上关于《数据结构》的试题。
试题链接

进入网页可以看到,如果选择《数据结构》的某个知识点组卷,一次最多只能出30题。
在这里插入图片描述
因此,想法就是用程序一次将30题全部爬下。随后生成新的试卷再进行爬虫。

2 实现思路

2.1 最初思路

  1. 访问第一题的url
  2. 爬取试题
  3. 找到下一题的url后,重复1.2操作,直到爬完30题

很遗憾,打开devtools看试题页的元素,发现必须先登录才能有试题页面,
因此问题来到了登录上。

用devtools看登录过程,没有相应的帐号、密码信息,因此无法用帐号密码post方式登录。但是注意到登录页有cookie,如下图右侧,故可采用cookie方式登录。
在这里插入图片描述

另外发现该页面有全部试题的url,因此新的方案为

2.2 新思路

  1. 通过cookie访问第一题url,获得全部试题的url
  2. 依次访问每题的url,爬取

3 代码

# -*- coding: utf-8 -*

"""
目标,爬取全部的题目以及答案
1. 利用cookie访问网页,记录全部的题目id并记录在内存中 需要把标签的属性记下来
2. 依次访问这些题目的网页,爬取问题选项和答案
3. 存储到本地文件
"""

import requests
from lxml import etree
import re

def pageid(url, cookie):


    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
        'Cookie': cookie
    }

    session = requests.Session()

    response = session.get(url, headers=headers)

    # print(response.text)

    selector = etree.HTML(response.text)

    pagelinks = []

    for i in range(30):
        apageid = selector.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/ul/li['+str(i+1)+']/a/@href')


        pagelinks.append('https://www.nowcoder.com'+"".join(apageid))

        # print(pagelinks)

    return pagelinks

def access(urls, cookie):

    for url in urls:

        print('\n'+url)

        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
            'Cookie': cookie
        }

        session = requests.Session()

        response = session.get(url, headers=headers)


        selector = etree.HTML(response.text)

        question = re.sub("_计算机基础-链表,数组专项练习_牛客网|<span>|</span>|\n", '', selector.xpath('/html/head/title/text()')[0])

        rightans = re.findall("[ABCD]", selector.xpath('/html/body/div[1]/div[2]/div[2]/div[3]/h1/text()')[0])[0]

        print(question)

        print(rightans)
        for i in range(1, 5):

            content = selector.xpath('/html/body/div[1]/div[2]/div[2]/div[3]/div['+str(i)+']//text()')
            if len(content)<5 and content:

                answer = chr(ord('A')+(i-1))+':'+content[1]
                print(answer)

if __name__ == '__main__':

    cookie = 'NOWCODERUID=C1F47CBEB368100B259B00921BDE1A9C; NOWCODERCLINETID=2987429E46984C805C4B748D83F50505; Hm_lvt_a808a1326b6c06c437de769d1b85b870=1582727926,1582951795,1583150899,1583296142; callBack=%2Ftest%2Fquestion%2Fdone%3Ftid%3D31053807%26qid%3D171569%26headNav%3Dwww; Hm_lpvt_a808a1326b6c06c437de769d1b85b870=1583298317; t=2B8379AABDEFC411E988236C916DCA4B; SERVERID=11b18158070cf9d7800d51a2f8a74633|1583298320|1583296137'

    urls = pageid('https://www.nowcoder.com/test/question/done?tid=31053807&qid=171569', cookie)
    # print(urls)
    access(urls, cookie)

4 结果

运行结果的部分截图如下

在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!