如何将杂乱的数据整理好(一)数据完整性判断
来源:丁点帮你 作者:丁点helper 在前面的文章中,我们跟大家一起学习了R中的数据导入、基本的操作方法、描述性统计等内容。 这其中的很多操作都是针对格式和内容都完好的数据而言的。但在实际工作中,我们收集到的数据往往不那么完美,需要先进行一番清理。今天开始,我们来学习如何将杂乱的数据整理得井井有条。 示例数据导入 多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。 示例数据是某高校教师对本班学生的调查结果,为方便练习,大家可先下载: 文件名:survey.csv 链接: https:// pan.baidu.com/s/1XZgdyb 59wPyWy6wp_hmoQw 密码: 5lyw 接下来导入数据至R中: survey <- read.csv("//Users//Desktop//titanic.csv", header = TRUE) 用下面的语句来了解一下这个数据: #数据有多少行多少列dim(survey)[1] 238 17#获取数据中的变量名称 names(survey) [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" [9] "Exercise"