泰坦尼克号

泰坦尼克号生还者预测

无人久伴 提交于 2020-03-10 12:02:26
1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场悲剧轰动了国际社会。沉船导致遇难的原因之一是没有足够的救生艇给乘客和船员。虽然在这场灾难中幸存下来有一些运气在里面,但一些人比其他人更有可能幸存,比如妇女,儿童和上层阶级。 1.数据描述 survival - 是否幸存(0=幸存,1=遇难) pclass - 船票类型(1=一等票,2=二等票,3=三等票) sex - 性别 age - 年龄 sibsp - 泰坦尼克号上该人员兄弟姐妹的数量 parch - 泰坦尼克好上该人员父母或者子女的数量 ticket - 船票编号 fare - 乘客票价 cabin - 客舱号码 embarked - 起航运港(C = Cherbourg, Q = Queenstown, S = Southampton) boat - 救生艇的编号(如果幸存) body - 人体编号(如果遇难并且尸体被找到) home.dest - 出发地到目的地 2.数据分析 2.1 幸存率分析 计算显示只有38%左右的乘客幸存下来,这次惨剧发生的原因是泰坦尼克号上并未携带足够的救生艇,只有20艘,这对于1317名乘客和885名机组人员来说还远远不够。 2.1 阶级地位分析 我们可以看出来头等舱对乘客有62%的生还几率,相比之下三等舱对乘客只有25.5

Kaggle案例之泰坦尼克船员幸存预测

时间秒杀一切 提交于 2019-12-04 00:26:30
无意间在网易云课堂上找了一个Kaggle案例,泰坦尼克获救船员预测,在此之前我是从没接触过kaggle,毕竟是刚入门的小白,看着视频,算是真正实战了一次,主要是在这个过程中学到了很多东西。 下面视频地址 http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&courseId=1003551009 还有数据集,是在GitHub里面找的 https://github.com/fayduan/Kaggle_Titanic 里面有大佬的ipython 源码,不过我也没仔细去看。还是按照视频上的一步一步下来。 首先是整体的流程我大概总结了一下。 拿到数据集分析数据 找出数据集中每个特征中是否含有缺失值或者异常值,填充缺失值 将特征中为字符的特征值转换为数值型,比如将性别男女用0和1表示 分析数据集适合采用什么算法进行预测,比如适合用分类算法还是适合用回归算法 建立特征工程(这算是整个过程下来最重要的) K阶交叉验证,划分数据集(k-1份训练,1份验证,每次换一个。重复k次,用来调优), 将交叉验证后的数据集扔进算法中进行训练及测试准确率。 接下来代码实现(按照视频教程实现)。 1导入数据,进行分析 import pandas as pd import

Python进行泰坦尼克生存预测――数据探索分析!

匿名 (未验证) 提交于 2019-12-02 22:51:30
数据预览 1.1 head() 预览数据集的前面几条数据可以大致看看每个字段的值究竟长什么样。 1.2 info() 可以看每个字段有多少非空值,字段的类型是什么样的 1.3 describe() 可以大致描述每个整数或者浮点型的数值分布,看最小值,最大值和四分位数,可以大致了解数据的偏移情况。 年龄字段也存在缺失,一般来说,老弱病残幼是要受到特殊照顾的,因此年龄应该会是一个比较重要的特征,并且因为它是连续值,这里采用算法预测的方式来进行填充。 最后我们来看一下填充后的数据情况 数据探索 各个字段值的分布情况 先看代码: 以上是画布相关设置 subplots_adjust()是用来调整画布内子图的间隔大小的。 以上是在画布相应位置画各个子图的代码。图形如下: 探索各字段与是否生存的关系,寻找对模型有用的特征 3.2.1 不同乘客等级与是否生存的关系 舱位越高级的,生存的比例越大。3等舱里面未获救的比例明显增大。说明舱位与是否生存有关系。 3.2.2 性别与是否生存的关系 从图中可以发现大部分都是集中在20-50岁之间的,从箱线图看平均年龄接近30岁。 因为年龄是连续值,因此我们考虑把年龄分段后,进行分段统计展示看年龄与是否生存的关系。 从数据上年纪小的生存的几率要大些。不同年龄段的生存率明显有差别,说明年龄与是否生存是有关系的。 3.2.4 有无兄弟姐妹与是否生存的关系

泰坦尼克号生存预测分析

半城伤御伤魂 提交于 2019-11-30 23:44:23
此文发表在简书,复制过来,在下方放上链接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克号生存预测 1. 背景与挖掘目标 “泰坦尼克号”的沉没是历史上最臭名昭著的海难之一。1912年4月15日,泰坦尼克号在处女航中与冰山相撞后沉没,2224名乘客和机组人员中有1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全条例。 造成沉船事故的原因之一是没有足够的救生艇供乘客和机组人员使用。虽然在沉没中幸存了一些运气,但一些人比其他人更容易生存,如妇女、儿童和上层阶级。 请根据这些数据(见数据来源)实现以下目标。 在这个挑战中,我们要求你们完成对什么样的人可能生存的分析。特别是,我们要求你运用机器学习的工具来预测哪些乘客在悲剧中幸存下来。 2. 分析方法与过程 泰坦尼克号生存预测主要包括以下步骤。 1) 数据描述性统计 2) 对步骤1)进行数据探索分析(寻找特征值)与预处理,包括数据缺失值的探索分析,数据的属性规约,清洗和变换 3) 利用2)中形成的已完成数据预处理的建模数据训练模型 4) 针对模型结果预测测试集人的生存情况 2.1数据来源和含义 数据来自于知名机器学习竞赛网站kaggle: https://www.kaggle.com/c/titanic/data 说明: PassengerId => 乘客ID Pclass =>

kaggle入门之Titanic生存预测

ぐ巨炮叔叔 提交于 2019-11-26 19:33:07
比赛说明 RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一。 1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。 这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。 尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。 在这个挑战中,我们要求您完成对哪些人可能存活的分析。 特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。 目标 你的工作是预测一名乘客是否能够幸免于泰坦尼克号沉没。 对于测试集中的每个,您必须预测变量的0或1值。 提交文件格式 您应该提交一个csv文件,其中包含418个条目 和 一个标题行。 如果您有额外的列(超出PassengerId和Survived)或行,您的提交将显示错误。 该文件应该有两列: PassengerId(按任意顺序排序) 幸存(包含你的二元预测:1为幸存,0为死者) data概观 数据分为两组: 训练集(train.csv) 测试集(test.csv) 训练集 应该用于构建您的机器学习模型。 对于训练集,我们为每位乘客提供结果(也称为“基本事实”)。 您的模型将基于乘客性别和班级等“功能”。 您还可以使用 特征工程 来创建新功能。 应该使用 测试集

Kaggle实战(一):泰坦尼克获救预测

谁说胖子不能爱 提交于 2019-11-26 02:34:21
1.数据集简介 此数据集一共有891条数据,数据内容如下,每列表示的意义如下: 乘客ID 是否幸存 舱位等级 姓名 性别 年龄 一同上船的兄弟姐妹 父母和小孩数目 船号 船价 船仓号 登录地点 PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.25 S 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0 PC 17599 71.2833 C85 C 3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.925 S 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0 113803 53.1 C123 S 5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.05 S 2.缺失值处理: 查看数据后,发现在Age列,有部分值缺失,将缺失值用中位数进行填充 titanic = pandas