用Python从10W部电影中找到那些豆瓣评分低于3.0的奇葩电影
0、简述 最近刷抖音,刷到一部抄袭《X战警》电影海报的电影。连电影海报都需要抄袭,这得是什么烂片! 尝试百度了一下,果然让人哭笑不得,连雷神的麒麟臂都一起抄了。 《女娲日记》绝对刷新你的认识 看了一下它的豆瓣评分,竟然是2分。 纵横观影界那么多年,看到的至少也是3分起步的电影,现在居然还有2分的电影 豆瓣评分最低打一星,换算成分数就是2分,因此豆瓣电影理论上的最低分不是0分,而是2分。 看来豆瓣对于某些电影还是挺照顾的。 感兴趣的朋友可以去看下这部电影,感受下吐槽的乐趣。 好了,进入搬砖模式,今天就来爬取下豆瓣评分在3分一下的那些神片,看看有没有你踩过的坑! 1、数 据 爬 取 1.1 页面分析 由于页面单次并不显示所有的电影信息,加载电影是URL也没有任何变化。需要进一步研究页面,找出真实需要爬取的URL信息。 通过该URL可以发现该页面电影的详细信息: 1.2数据抓取 通过点击加载更多,可以发现一些规律: 真实URL中参数start会每次增加20,新的URL中呢也会相应的存储对应的20部电影的信息。 掌握这些规律之后,就可以用代码实现抓取了。 import requests from lxml import etree import json import pandas as pd headers = { 'User-Agent' : "Mozilla/5.0 (Windows