titanic

如何将杂乱的数据整理好(一)数据完整性判断

只愿长相守 提交于 2021-02-06 10:41:45
来源:丁点帮你 作者:丁点helper 在前面的文章中,我们跟大家一起学习了R中的数据导入、基本的操作方法、描述性统计等内容。 这其中的很多操作都是针对格式和内容都完好的数据而言的。但在实际工作中,我们收集到的数据往往不那么完美,需要先进行一番清理。今天开始,我们来学习如何将杂乱的数据整理得井井有条。 示例数据导入 多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。 示例数据是某高校教师对本班学生的调查结果,为方便练习,大家可先下载: 文件名:survey.csv 链接: https:// pan.baidu.com/s/1XZgdyb 59wPyWy6wp_hmoQw 密码: 5lyw 接下来导入数据至R中: survey <- read.csv("//Users//Desktop//titanic.csv", header = TRUE) 用下面的语句来了解一下这个数据: #数据有多少行多少列dim(survey)[1] 238 17#获取数据中的变量名称 names(survey) [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" [9] "Exercise"

kaggle-titanic实战--数据挖掘实例

a 夏天 提交于 2020-12-24 06:35:15
kaggle是一个国外的数据挖掘竞赛平台,大家做完竞赛之后会写一些指导,因此可以通过其他人写的指导文件进行学习, kaggle传送门 。 其中有一个入门类的分析问题是分析Titanic号的救援问题,分析哪些因素会影响到是否被救援,首先打开Titanic这个问题的具体页面, Titanic: Machine Learning from Disaster , 先看一看overview里面的description和evaluation,看看问题背景和最终需要预测的内容,然后点击数据,下载三个csv格式的数据集,第一个 train.csv 是训练集,第二个 test.csv 是测试集,第三个 gender_submission.csv 是验证集, 下载好之后打开pycharm,新建名为Titanic的工程,新建Titanic.py开始进行分析 首先,导入需要用到的包 import numpy as np import pandas as pd import matplot.pyplot as plt from pandas import DataFrame,Series 接下来导入数据 train_data = pd.read_csv('train.csv') 查看数据的信息 train_data.info() 得到的数据信息如下 <class 'pandas.core.frame

Kaggle比赛(一)Titanic: Machine Learning from Disaster

时光总嘲笑我的痴心妄想 提交于 2020-12-22 07:29:09
泰坦尼克号幸存预测 是本小白接触的第一个Kaggle入门比赛,主要参考了以下两篇教程: <a href="https://www.cnblogs.com/star-zhao/p/9801196.html" target="_blank"> https://www.cnblogs.com/star-zhao/p/9801196.html </a> <a href="https://zhuanlan.zhihu.com/p/30538352" target="_blank"> https://zhuanlan.zhihu.com/p/30538352 </a> 本模型在Leaderboard上的最高得分为0.79904,排名前13%。 由于这个比赛做得比较早了,当时很多分析的细节都忘了,而且由于是第一次做,整体还是非常简陋的。今天心血来潮,就当做个简单的记录(流水账)。 导入相关包: import numpy as np import pandas as pd import matplotlib.pyplot as plt import re from sklearn.model_selection import GridSearchCV from sklearn.linear_model import LinearRegression from sklearn.ensemble

机器学习——决策树

徘徊边缘 提交于 2020-11-11 15:06:41
决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过从数据特性中推导出简单的决策规则来预测目标变量的值 导入类库 1 import numpy as np 2 import pandas as pd 3 from sklearn.feature_extraction import DictVectorizer 4 from sklearn.tree import DecisionTreeClassifier 5 from sklearn.model_selection import train_test_split 简单版 1 def decide_play1(): 2 df = pd.read_csv( ' dtree.csv ' ) 3 dict_train = df.to_dict(orient= ' record ' ) 4 5 dv = DictVectorizer(sparse= False) 6 dv_train = dv.fit_transform(dict_train) 7 # print(dv_train) 8 # dv_train1 = np.append(dv_train, dv_train[:, 5].reshape(-1, 1), axis=1) 9 # dv_train2 = np.delete(dv_train1, 5, axis

Python数据分析实战:大(zhuang)佬(bi)级别数据预处理方式

做~自己de王妃 提交于 2020-08-06 21:08:26
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 作者丨琥珀里有波罗的海 https://zhuanlan.zhihu.com/p/146906814 前言 之前写的文字都比较干,每篇文章都是篇幅巨长,恨不得一篇文章把一个数据集从入手到预测完成全部覆盖。这里面还要加上自己的“思路”和“弯路”。 这次我们专门挑了一份烂大街的数据集Titanic(后台回复: Titanic 即可获取),写了一点关于数据预处理部分,但是代码风格却是大(zhuang)佬(bi)级别。很明显,我不是大佬,不过是有幸被培训过。 说到预处理,一般就是需要: 数字型缺失值处理 类别型缺失值处理 数字型标准化 类别型特征变成dummy变量 Pipeline 思想 在做数据处理以及机器学习的过程中,最后你会发现每个项目似乎都存在“套路”。所有的项目处理过程都会存在一个“套路”: 预处理 建模 训练 预测 对于预处理,其实也是一个套路,不过我们不用pipeline 函数,而是另一个FeatureUnion函数。 当然一个函数也不能解决所有问题,我们通过实战来看看哪些函数以及编码风格能让我们的代码看起来很有条理并且“大(zhuang)佬(bi)”风格十足。 导入数据开启实战 今天我们分析的titanic 数据

利用Python快速进行数据探查

孤者浪人 提交于 2020-07-24 05:56:53
工作中你是否遇见这样的问题: 接手新业务时需要了解数十上百张的数据库表结构; 表中的数据量级均是百万级以上; 希望可以批量快速生成如下表格。 数据探查结果表 如果你遇到了以上的问题,恭喜你,本文可以帮助你解决! 1、解决思路 但有人会有疑问,Python进行数据探查不是非常简单的事吗,一个函数分分钟搞定,还有必要专门介绍吗。如果你这样想就too yong too simple了。 你可以回想下,当我们采用descirbe()函数时,默认的前提是已经将数据读入了Python之中。但你可曾想过,实际工作中数据读入也会成为一种问题。对的,当数据量级一旦达到百万以上甚至更多时,Python读取数据的效率就很低了。读取一张表可能就要半小时以上,几十张表的话差不多就得一天了。这样低效的方法,肯定是不可取的。 本文就是来源于工作中的实际需求,在上述的方式行不通时,我转变思路寻找了另一种方式。具体的逻辑思路如下: 也就是说,为了快速进行探查,我们可以不用进行全表读入,只需对每个表每个字段进行分组查询就可以了。但如何将SQL查询语句进行循环呢?采用字符串的格式化输出! 2、代码实现 首先我们导入相关包 import pymysql import pandas as pd import datetime as dt start=dt.datetime.now() #为了计算程序执行时间

git command

十年热恋 提交于 2020-03-16 09:02:47
新建并上传: 1 手工在github新建项目titanic 2 本地初始化 git init titanic 3 文件复制到本地项目目录 cp Titanic.ipynb titanic 4 备注(备注后才能上传) $ git commit -m "initial commit" 5 上传 git push -u origin master 来源: https://www.cnblogs.com/instant7/p/12501709.html

随机森林算法实现分类

回眸只為那壹抹淺笑 提交于 2020-02-17 06:12:50
文章目录 导入数据 导入pandas,并且重命名为pd。 数据导入 数据处理 建立模型 模型评估 更多内容关注公众号:邯郸路220号子彬院 导入数据 导入pandas,并且重命名为pd。 import pandas as pd #通过互联网读取泰坦尼克乘客档案,并存储在变量titanic中。 titanic = pd.read_csv( ‘titanic.txt’) #引入pandas,并且重命名为pd。 将熊猫作为pd导入 #通过互联网读取泰坦尼克乘客档案,并存储在变量titanic中。 泰坦尼克号= pd.read_csv(‘titanic.txt’) 数据导入 #导入pandas,并且重命名为pd。 import pandas as pd #通过互联网读取泰坦尼克乘客档案,并存储在变量titanic中。 titanic = pd . read_csv ( 'http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt' ) #人工选取pclass、age以及sex作为判别乘客是否能够生还的特征。 x = titanic [ [ 'pclass' , 'age' , 'sex' ] ] y = titanic [ 'survived' ] 数据处理 #对于缺失的年龄信息,我们使用全体乘客的平均年龄代替

Python图表数据可视化Seaborn:2. 分类数据可视化-分类散点图|分布图(箱型图|小提琴图|LV图表)|统计图(柱状图|折线图)

╄→尐↘猪︶ㄣ 提交于 2020-01-16 04:48:53
1. 分类数据可视化 - 分类散点图 stripplot( ) / swarmplot( ) sns.stripplot(x="day",y="total_bill",data=tips,jitter = True, size = 5, edgecolor = 'w',linewidth=1,marker = 'o') import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns % matplotlib inline sns.set_style("whitegrid") sns.set_context("paper") # 设置风格、尺度 import warnings warnings.filterwarnings('ignore') # 不发出警告 # 1、stripplot() # 按照不同类别对样本数据进行分布散点图绘制 tips = sns.load_dataset("tips") print(tips.head()) # 加载数据print(tips['day'].value_counts()) sns.stripplot(x="day", # x → 设置分组统计字段 y="total_bill", # y → 数据分布统计字段 #