titanic

Kaggle实战:随机森林预测泰坦尼克生存率

匿名 (未验证) 提交于 2019-12-03 00:25:02
一、项目背景和分析需求的提出 泰坦尼克号出事后,收集了乘客的各项数据,包括: PassengerId、Survived、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked。 要求用这些数据训练一个能够判断乘客是否生还的二分类器。 二、数据预处理 1.导入数据,熟悉数据 这是进行分析的第一步,我们需要大概了解数据集都有哪些字段,都是什么类型的变量,记录是否完整等。 import pandas as pd #用pandas库的read_csv()来读取文件,其中('')中的内容如果不在同一个环境下,用绝对路径。 titanic = pd.read_csv('train.csv') #不包括列名显示前5行,系统从0开始计数 print(titanic.head()) #显示数据的各项基本数字特征:计数、均值、方差等等 print(titanic.describe()) 得到结果: PassengerId Survived Pclass \ 0 1 0 3 1 2 1 1 2 3 1 3 3 4 1 1 4 5 0 3 Name Sex Age SibSp \ 0 Braund, Mr. Owen Harris male 22.0 1 1 Cumings, Mrs. John Bradley (Florence Briggs

数据可视化库之Seaborn教程(catplot)

て烟熏妆下的殇ゞ 提交于 2019-11-30 00:32:04
catplot(): 用分类型数据(categorical data)绘图 在关系图教程中,我们了解了如何使用不同的可视化表示来显示数据集中多个变量之间的关系。在这些例子中,我们关注的主要关系是两个数值变量之间的情况。如果其中一个主要变量是“分类”(分为不同的组),那么使用更专业的可视化方法可能会有所帮助。 下面所有函数的最高级别的整合接口:catplot() Categorical scatterplots: stripplot() (with kind=“strip”; the default) swarmplot() (with kind=“swarm”) Categorical distribution plots: boxplot() (with kind=“box”) violinplot() (with kind=“violin”) boxenplot() (with kind=“boxen”) Categorical estimate plots: pointplot() (with kind=“point”) barplot() (with kind=“bar”) countplot() (with kind=“count”) import seaborn as sns import matplotlib . pyplot as plt sns . set (

集成算法

亡梦爱人 提交于 2019-11-28 03:13:32
我们以泰坦尼克号的获救信息为列 第一步:读取数据 import pandas as pd import numpy as np titanic = pd.read_csv('titanic_train.csv') #输出统计值 print(titanic.describe()) 第二步:数据准备 1.对于数字型缺失,我们使用均值来填充缺失值,对于字母型缺失, 我们使用出现概率最大的字母来填充缺失值 2.为了便于计算我们需要把字母类型,转换为数字类型 #使用均值填充缺失值 titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median()) #输出其中的类别 print(titanic['Sex'].unique()) #.loc取出对应的数据,前面一个参数是索引,后面是对应的属性,将字符串转换为数字类型 titanic.loc[titanic['Sex']=='male', "Sex"] = 0 titanic.loc[titanic['Sex']=='female', "Sex"] = 1 print(titanic['Embarked'].unique()) #存在缺失值, 字母的话,用出现次数最多的S补齐 titanic['Embarked'] = titanic['Embarked'].fillna('S')