titanic

python画图

匆匆过客 提交于 2020-01-15 05:53:20
正弦图像: #coding:utf-8import numpy as npimport matplotlib.pyplot as pltx=np.linspace(0,10,1000)y=np.sin(x)z=np.cos(x**2)#控制图形的长和宽单位为英寸,# 调用figure创建一个绘图对象,并且使它成为当前的绘图对象。plt.figure(figsize=(8,4))#$可以让字体变得跟好看#给所绘制的曲线一个名字,此名字在图示(legend)中显示。# 只要在字符串前后添加"$"符号,matplotlib就会使用其内嵌的latex引擎绘制的数学公式。#color : 指定曲线的颜色#linewidth : 指定曲线的宽度plt.plot(x,y,label="$sin(x)$",color="red",linewidth=2)#b-- 曲线的颜色和线型plt.plot(x,z,"b--",label="$cos(x^2)$")#设置X轴的文字plt.xlabel("Time(s)")#设置Y轴的文字plt.ylabel("Volt")#设置图表的标题plt.title("PyPlot First Example")#设置Y轴的范围plt.ylim(-1.2,1.2)#显示图示plt.legend()#显示出我们创建的所有绘图对象。plt.show() 配置

kaggle-titanic 数据分析过程

不打扰是莪最后的温柔 提交于 2020-01-13 14:39:48
1. 引入所有需要的包 # -*- coding:utf-8 -*- # 忽略警告 import warnings warnings.filterwarnings('ignore') # 引入数据处理包 import numpy as np import pandas as pd # 引入算法包 from sklearn.tree import DecisionTreeClassifier from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.naive_bayes import GaussianNB from sklearn.ensemble import BaggingRegressor from sklearn.svm import SVC, LinearSVC from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier from sklearn.ensemble import GradientBoostingRegressor from sklearn.linear_model import

Python机器学习:泰坦尼克号获救预测一

让人想犯罪 __ 提交于 2020-01-10 09:50:59
数据集下载地址: https://github.com/fayduan/Kaggle_Titanic/blob/master/train.csv 视频地址: http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&courseId=1003551009 一、项目概要 1、应用   模式识别、数据挖掘(核心)、统计学习、计算机视觉、语言识别、自然语言处理 2、模式、流程   训练样本 --> 特征提取 --> 学习函数 --> 预测 二、Python实践 1、应用的模块   Numpy:科学计算库   pandas:数据分析处理库   Matplotlib:数据可视化库   Scikit-learn:机器学习库 2、数据源处理 ① 导入数据:    1 #coding: utf-8 2 import pandas 3 titanic = pandas.read_csv('train.csv') ② 对缺失数据的列进行填充: 1 #对于缺失的数据进行补充 median 填充中位数 2 titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median()) ③ 属性转换

机器学习案例实战(4)——Kaggle竞赛案例-泰=泰坦尼克号获救预测

不问归期 提交于 2019-12-04 00:29:52
1 表格数据中显示label列0未获救,1是获救。pclass是舱位等级。姓名,性别,年龄,sibsp:兄弟姐妹个数,船票编号,父母,价位,不同的上传地点。有了这些数据进行一个二分类。 2 用程序分析 使用ipython notebook比较方便可视化,便于展示。其他也可以。 pandas库是做分析处理的,先导入pandas库。pandas.read_csv(“”)把数据读进来就是一个行和列的结构,把这个赋给了一个变量titanic。通过变量调.head,即titanic.head()打印出前几行,5是默认的,想显示出几行括号中写几。 继续对titanic调describe,titanic.describe,按列统计特征,passenger总个数,均值,方差,最大值最小值。age列个数少,说明有缺省。 机器学习算法要求 输入的要求是一个矩阵,有缺失值之后就做不成矩阵了。 所以需要对数据进行预处理, 第一步:对缺失值进行填充,用均值填充。fillna就是填充,就是用age均值对age列进行填充。然后再describe,看到是891个。 3 机器学习不能处理string值,需要转换成int值或者float,成为机器学习可以处理的数值型的。0表示male,1表示female。 print titanic[“sex”].unique(),看这一列有几种可能性。 第二步:数值转换

【Kaggle笔记】预测泰坦尼克号乘客生还情况(决策树)

对着背影说爱祢 提交于 2019-12-04 00:27:31
数据集 泰坦尼克号乘客数据集 代码 # -*- coding: utf-8 -*- """ 泰坦尼克号乘客生还情况预测 模型 决策树 """ # 导入pandas用于数据分析。 import pandas as pd # 利用pandas的read_csv模块直接从互联网收集泰坦尼克号乘客数据。 titanic = pd.read_csv( 'titanic.txt' ) # 机器学习有一个不太被初学者重视,并且耗时,但是十分重要的一环,特征的选择,这个需要基于一些背景知识。根据我们对这场事故的了解,sex, age, pclass这些都很有可能是决定幸免与否的关键因素。 X = titanic[[ 'pclass' , 'age' , 'sex' ]] y = titanic[ 'survived' ] # 首先我们补充age里的数据,使用平均数或者中位数都是对模型偏离造成最小影响的策略。 X[ 'age' ].fillna(X[ 'age' ].mean(), inplace= True ) # 数据分割。 from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.25 , random

泰坦尼克号获救预测(针对anaconda中运行遇到的问题的解决办法)

 ̄綄美尐妖づ 提交于 2019-12-04 00:26:49
机器学习实战(五) 泰坦尼克号获救预测代码运行问题解决办法 一、 读取数据,观察数据分布 import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") print(titanic.head(5)) #print (titanic.describe())#查看每一列的情况 #print(titanic.shape)#(891, 12) #结果如下图: 1.分析: survived:这一列,1-存活,0-死亡 sex:是文字形式,不利于分析,故可能需要映射到数值的值 age:这一列空缺了一百多个值,从逻辑上考虑年龄还是很重要的,所以缺失值需要填补 Ticket:这列船票号,看起来没规律。。。 Fare:船票费用和船舱等级(Pclass)以及航程长短(Embarked)有关。 Cabin:这个缺失值太多了,代表含义不清晰,先忽略。 Embarked:上船港口,有三个取值,C/S/Q,是文字形式,不利于分析,故可能需要映射到数值的值,而且有2个缺失值 二、 数据预处理 1. 填充缺失值 可以采取:平均值/中值/众数等填充方式。 Age这列平均值和中值都可以考虑一下(看具体效果决定),Embarked就缺了俩,而且取值就3个离散值,故用众数比较合理。 1.Age titanic["Age"] =

Kaggle案例之泰坦尼克船员幸存预测(sklearn机器学习库)

微笑、不失礼 提交于 2019-12-04 00:25:53
无意间在网易云课堂上找了一个Kaggle案例,泰坦尼克获救船员预测,在此之前我是从没接触过kaggle,毕竟是刚入门的小白,看着视频,算是真正实战了一次,主要是在这个过程中学到了很多东西。 下面视频地址 http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&courseId=1003551009 还有数据集,是在GitHub里面找的 https://github.com/fayduan/Kaggle_Titanic 里面有大佬的ipython 源码,不过我也没仔细去看。还是按照视频上的一步一步下来。 首先是整体的流程我大概总结了一下。 拿到数据集分析数据 找出数据集中每个特征中是否含有缺失值或者异常值,填充缺失值 将特征中为字符的特征值转换为数值型,比如将性别男女用0和1表示 分析数据集适合采用什么算法进行预测,比如适合用分类算法还是适合用回归算法 建立特征工程(这算是整个过程下来最重要的) K阶交叉验证,划分数据集(k-1份训练,1份验证,每次换一个。重复k次,用来调优), 将交叉验证后的数据集扔进算法中进行训练及测试准确率。 接下来代码实现(按照视频教程实现)。 1导入数据,进行分析 import pandas as pd import

机器学习 - 船员数据分析

血红的双手。 提交于 2019-12-03 20:25:27
样本数据 PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked 1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S 2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C 3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S 4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S 5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S 6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q 7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,17463,51.8625,E46,S 8,0,3,"Palsson, Master.

SparklyR removing a Table from Spark Context

匿名 (未验证) 提交于 2019-12-03 08:59:04
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 问题: Would like to remove a single data table from the Spark Context ('sc'). I know a single cached table can be un-cached, but this isn't the same as removing an object from the sc -- as far as I can gather. library(sparklyr) library(dplyr) library(titanic) library(Lahman) spark_install(version = "2.0.0") sc <- spark_connect(master = "local") batting_tbl <- copy_to(sc, Lahman::Batting, "batting") titanic_tbl <- copy_to(sc, titanic_train, "titanic", overwrite = TRUE) src_tbls(sc) # [1] "batting" "titanic" tbl_cache(sc, "batting") # Speeds up

特征工程――特征转换

匿名 (未验证) 提交于 2019-12-03 00:27:02
无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一) 无量纲化方法:标准化, 区间所方法 x ′ = x x σ x ′ = x x σ 其中 x x 是均值, σ σ 是标准差 代码: #对 Amount字段--均值为0,方差为1标准化 from sklearn import preprocessing std = preprocessing.StandardScaler() #StandardScaler Amount = RFM[ 'Amount' ].values.reshape(- 1 , 1 ) std.fit(Amount) RFM[ 'Amount_std' ] = std.transform(Amount) RFM.head( 5 ) x ′ = x m i n ( x ) m a x ( x ) m i n ( x ) x ′ = x m i n ( x ) m a x ( x ) m i n ( x ) 代码: #对 Amount字段--[0,1]区间归一化 from sklearn import preprocessing M in Maxscaler = preprocessing.M in Maxscaler() #MinMaxscaler Amount = RFM[ 'Amount' ].values.reshape(- 1 , 1 )