用Python从10W部电影中找到那些豆瓣评分低于3.0的奇葩电影

和自甴很熟 提交于 2020-01-01 05:16:17

0、简述

最近刷抖音,刷到一部抄袭《X战警》电影海报的电影。连电影海报都需要抄袭,这得是什么烂片!
尝试百度了一下,果然让人哭笑不得,连雷神的麒麟臂都一起抄了。

《女娲日记》绝对刷新你的认识
看了一下它的豆瓣评分,竟然是2分。
在这里插入图片描述
纵横观影界那么多年,看到的至少也是3分起步的电影,现在居然还有2分的电影
豆瓣评分最低打一星,换算成分数就是2分,因此豆瓣电影理论上的最低分不是0分,而是2分。
看来豆瓣对于某些电影还是挺照顾的。

感兴趣的朋友可以去看下这部电影,感受下吐槽的乐趣。
好了,进入搬砖模式,今天就来爬取下豆瓣评分在3分一下的那些神片,看看有没有你踩过的坑!

1、数 据 爬 取

1.1 页面分析

由于页面单次并不显示所有的电影信息,加载电影是URL也没有任何变化。需要进一步研究页面,找出真实需要爬取的URL信息。
在这里插入图片描述
通过该URL可以发现该页面电影的详细信息:
在这里插入图片描述

1.2数据抓取

通过点击加载更多,可以发现一些规律:
真实URL中参数start会每次增加20,新的URL中呢也会相应的存储对应的20部电影的信息。
掌握这些规律之后,就可以用代码实现抓取了。

import requests
from lxml import etree
import json
import pandas as pd

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}

for i in range(0,481,20):
    url = "https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1&start={页面}&genres=%E5%89%A7%E6%83%85&countries=%E7%BE%8E%E5%9B%BD".format(页面 = i)
    data = requests.get(url,headers = headers).text
    dicts = json.loads(data)
    df = pd.DataFrame(dicts["data"])
    if i == 0:
        total_df = df
    else:
        total_df = pd.concat([total_df,df],axis = 0)
		
total_df.to_csv('movie-0.csv', sep = ',', header = True, index = False)

然后将爬取好的电影数据存入文件即可完成。

2、数据概况

爬取数据时爬取了所有的低分电影,但是电影基本集中在2000年往后,2000年之前的电影基本没有低于3分的电影,可能因为这部分电影在这之前的评分方式不一致。根据标签爬取的低评分(评分在2-3区间内)电影总量在550部左右。

电影名称,评分情况,电影信息和演职人员等信息截图如下:
在这里插入图片描述

这里面评分人数最多的是一部国产片《天机·富春山居图》,孙健君导演、刘德华和志玲姐姐的作品,很不幸地看过这部电影,emmm…一言难尽。
在这里插入图片描述
金扫帚奖-最令人失望的影片也是实至名归,非常好的烂片!
在这里插入图片描述

3、低分电影分析

3.1、最近十年烂片数量变化

最近十年烂片数量节节攀升(当然电影总量也在上升),18年数量比较少,可能是因为爬取得不够全,或者时间关系,部分电影还没有收录。(19年数据不全,暂时未放进来)
在这里插入图片描述
如果看这几年的烂片数量占比的话,最近几年的烂片占比在上升,从烂片占比这一个指标来说,影片质量下降明显。
在这里插入图片描述

3.2、不同地区的烂片数量

在获取的500多部低评分电影中,最多的是中国的电影,其次是美国的电影,当然虽然这两个地方的低分电影多,并不能说明我们或者美国的电影质量不好。
在这里插入图片描述
如果我们去看美国所有电影的评分分布情况,虽然美国的烂片比较多,但是他们的总量电影也非常多,而且不同评分的电影数量分布基本上满足标准的良性正态分布的关系。
在这里插入图片描述
这一次爬取了足够多的的电影,这里暂时不过多地深入了。下一次会出个严肃的电影质量分析,敬请期待哈。

3.3、烂片中不同电影类型分布

在获取到的这些低评分电影中,最多标签就是动作片、剧情和喜剧。

不会拍好作品的尬拍动作片
不知道叫什么标签的取个剧情片肯定错不了
打喜剧标签的主要是那些好声音之为你转身类综艺大电影
一把把镰刀挥向韭菜,疯狂收着智商税。

在这里插入图片描述

4、电影推荐

评论人数较多的几部烂片如下,看看有没有你踩过的坑,反正我是看过排名第一的《天机·富春山居图》。(因为这是截止到18年的数据,所以《上海堡垒》侥幸躲过一劫)
在这里插入图片描述

仔细看了下这几部电影的简介,第二部也是个神片,感兴趣的赶紧搜索看一下。
在这里插入图片描述

出于好奇搜了一下你们的女神,赵老师的几部电影,果然都很出色。
一瞬间,青春期的那几部电影吸引了眼球,现在回想起来还有点上头。
在这里插入图片描述

看过富春山居图,知道赵奕欢,看过这个榜单后整个人都不大好了,我简直是烂片收割机本人。
在这里插入图片描述
好了,我去面壁思过会。

如果你觉得文章还不错,请大家点赞分享下。你的肯定是我最大的鼓励和支持。

如需数据分析相关代码,有任何问题都欢迎私信~

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!