Kaggle实战:随机森林预测泰坦尼克生存率
一、项目背景和分析需求的提出 泰坦尼克号出事后,收集了乘客的各项数据,包括: PassengerId、Survived、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked。 要求用这些数据训练一个能够判断乘客是否生还的二分类器。 二、数据预处理 1.导入数据,熟悉数据 这是进行分析的第一步,我们需要大概了解数据集都有哪些字段,都是什么类型的变量,记录是否完整等。 import pandas as pd #用pandas库的read_csv()来读取文件,其中('')中的内容如果不在同一个环境下,用绝对路径。 titanic = pd.read_csv('train.csv') #不包括列名显示前5行,系统从0开始计数 print(titanic.head()) #显示数据的各项基本数字特征:计数、均值、方差等等 print(titanic.describe()) 得到结果: PassengerId Survived Pclass \ 0 1 0 3 1 2 1 1 2 3 1 3 3 4 1 1 4 5 0 3 Name Sex Age SibSp \ 0 Braund, Mr. Owen Harris male 22.0 1 1 Cumings, Mrs. John Bradley (Florence Briggs