数据集
2.1数据集概念
概念:通常是由数据构成的矩形数据
不同行业对数据集的行和列叫法不同
行业人 | 行 | 列 |
统计学家 | 观测(observation) | 变量(variable) |
数据库分析师 | 记录(record) | 字段(field) |
数据挖掘和机器学习研究中 | 示例(example) | 属性(attribute) |
可处理的数据类型(模式):数值型、字符型、逻辑型、复数型、原生型(字节)
存储数据的结构:标量、向量、数据、数据框和列表
实例的标识符:rownames(行名);实例的类别型:因子(factors)
2.2数据结构
这节讲了几个数据结构,向量、矩阵、数组、数据框,前三种分别是一维、二维、大于二维的,它们共同点是一个数据结构中,仅能用一种数据的模式,而数据框则可以多种模式。
一些定义
对象:可复制给变量的任何事物,包括常量、数据结构、函数、图形
模式:描述对象如何存储和某各类
数据框:存储数据的一种结构(列表示变量,行表示观测),一个数据框可存储不同类型的变量(如数值型、字符型)
2.2.1 向量(一维数据,数值型、字符型、逻辑型)
a<- c(1,2,3) #数值型 b<-c("one","two","three")#字符型 c<-c(TRUE,TURE,FALSE) #逻辑型
注意:1.字符型的向量,元素要加“ ”或者' ',数值型和逻辑型不需要。
2.同一向量,只能用一种模式的数据;
3.标量是只含一个元素的向量
#标量是 只含一个元素的向量 f<- 1 g<-"US" h<-TRUE
方括号的作用:元素的位置数值,具体如何访问向量中的元素,看下面代码
> a<-c("k","j","h","a","c","m") #生成一个向量 > a[3] #向量a的第三个元素 [1] "h" > a[c(1,3,5)] #向量a的第1个、第3个、第5个元素 [1] "k" "h" "c" > a[2:6] #生成一个数值序列,向量a的从第2个到第6个的元素。等价于a( [1] "j" "h" "a" "c" "m" #两种方式生成的向量a一样 > a<-c(2:6) > a [1] 2 3 4 5 6 > a<-c(2,3,4,5,6) > a [1] 2 3 4 5 6
2.2.2 矩阵(二维数值,字符型、数值型、逻辑型)
注意:矩阵中仅能包含一种数据类型
函数matrix()
作用:创建矩阵
格式:myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns, byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames))
其中,vector--矩阵的元素;nrow、ncol--分别制定行和列的维数;dimnames--可选的、以字符型向量表示的行名和列名;byrow--矩阵行行填充(byrow = TRUE)或者按列填充(byrow =FALSE),默认是按列。
matrix用法实例
eg1. 创建一个元素为1到20,大小5*4的矩阵,默认按列排列。
> y<-matrix(1:20,nrow=5,ncol=4) > y [,1] [,2] [,3] [,4] [1,] 1 6 11 16 [2,] 2 7 12 17 [3,] 3 8 13 18 [4,] 4 9 14 19 [5,] 5 10 15 20
eg2.
> cells <- c(1,26,24,68) > rnames<-c("R1","R2") > cnames<-c("C1","C2") #按列排列(也是默认方式) > mymatrix<-matrix(cells,nrow=2,ncol=2,byrow=FALSE,dimnames=list(rnames,cnames)) > mymatrix C1 C2 R1 1 24 R2 26 68 #按行排列 > mymatrix<-matrix(cells,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames)) > mymatrix C1 C2 R1 1 26 R2 24 68
选择矩阵中的元素:
X[i,]:矩阵中的第i行; X[,j]:矩阵中的第j列; X[i,j]:第i行即j列元素
选择多行或多列,下标i和j可为数值型向量
例子:
> x<-matrix(1:10,nrow=2) > x [,1] [,2] [,3] [,4] [,5] [1,] 1 3 5 7 9 [2,] 2 4 6 8 10 > x[2,] [1] 2 4 6 8 10 > x[,2] [1] 3 4 > x[1,4] #第1行的第4各个元素 [1] 7 > x[1,c(4,5)] #第1行的,第4个元素和第5个元素 [1] 7 9
2.2.3 数组(维度可以大于2)
注意:数组中的数据只能拥有一种模式
创建方式:array( )
myaaray <- array(vector, dimensions, dimnames)
其中,vector -- 数组的中数据;dimensions -- 数值型向量,给出各维度的最大值;dimnames -- 可选的、各维度名称标签的列表.
eg.创建三维(2*3*4)数值型数组
> dim1<-c("A1","A2") > dim2<-c("B1","B2") > dim2<-c("B1","B2","B3") > dim3<-c("C1","C2","C3","C4") > z<-array(1:24,c(2,3,4),list(dim1,dim2,dim3)) > z , , C1 B1 B2 B3 A1 1 3 5 A2 2 4 6 , , C2 B1 B2 B3 A1 7 9 11 A2 8 10 12 , , C3 B1 B2 B3 A1 13 15 17 A2 14 16 18 , , C4 B1 B2 B3 A1 19 21 23 A2 20 22 24 > z<-array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3)) > z , , C1 B1 B2 B3 A1 1 3 5 A2 2 4 6 , , C2 B1 B2 B3 A1 7 9 11 A2 8 10 12 , , C3 B1 B2 B3 A1 13 15 17 A2 14 16 18 , , C4 B1 B2 B3 A1 19 21 23 A2 20 22 24
选取元素的方式与居住类似,例如:z[1,2,3]为15.
2.2.4 数据框(可包含不同模式(数值型、字符型等)的数据)
注意:可将多种模式的数据放入一个矩阵,但每列的数据模式必须唯一,不同列模式可以不同
创建函数 data.frame( )
mydata <- data.frame(col1, col2, col3)
其中,列向量col1,col2,col3可为任何类型(如字符型、数值型或逻辑型)
> patientID<-c(1,2,3,4) > age<-c(25,34,28,52) > diabetes<-c("Type1","Type2","Type1","Type2") > status<-c("Poor","Improved","Excellent","Poor") > patientdata<-data.frame(patientID,age,diabetes,status) > patientdata patientID age diabetes status 1 1 25 Type1 Poor 2 2 34 Type2 Improved 3 3 28 Type1 Excellent 4 4 52 Type2 Poor
选取数据框中的元素:1.用下标记号。2.直接指定列明。3.$:选取给定数据框的某个特定变量
> patientdata[1:2] patientID age 1 1 25 2 2 34 3 3 28 4 4 52 > patientdata[c(1:3)] patientID age diabetes 1 1 25 Type1 2 2 34 Type2 3 3 28 Type1 4 4 52 Type2 > patientdata[c("diabetes","status")] diabetes status 1 Type1 Poor 2 Type2 Improved 3 Type1 Excellent 4 Type2 Poor > patientdata$age [1] 25 34 28 52
用$生成diabetes和status的列联表
Excellent Improved Poor Type1 1 0 1 Type2 0 1 1
比数据框$变量名调用变量更简单的方法是用attach()和detach(),和with
1.attach( )、detach()和with()
attach()可将数据框添加到R的搜索路径,有了它,调用数据框里的变量时,就不需要再告诉R现在调用的变量在什么数据框了。
detach()是将数据框从搜索路径中移除。
attach()和detach()像是一对兄弟,但事实上,detach不对数据本身作用,可以省略。
summary(mtcars$disp) plot(mtcars$mpg,mtcars$disp) plot(mtcars$mpg,mtcars$wt)
等价于
attach(mtcars) summary(mpg) plot(mpg,disp) plot(mpg,wt) detach(mtcars)
局限:当名称相同的对象不止一个,用attach()就会出问题。原始对象将取得优先权,后来的对象将被屏蔽(masked)。
with()如何得到与上面代码一样的结果呢,看如下代码
with(mtcars,{ print(summary(mpg)) plot(mpg,disp) plot(mpg,wt)})with(mtcars,{print(summary(mpg)) plot(mpg,disp) plot(mpg,wt)})
注意花括号里要没有逗号,要换行隔开,我自己运行,没换行不能实现。花括号的语句都是针对数据框mtcars,如果花括号里只有一条语句,花括号可以省略
局限:赋值仅在此函数的括号内剩下。
改进:用特殊复制符<<-代替<-,则可将对象保存到with外的全局环境中。
> with(mtcars,{nokeepstates<-summary(mpg) + keepstates<<-summary(mpg)}) > nookeepstates Error: object 'nookeepstates' not found > keepstates Min. 1st Qu. Median Mean 3rd Qu. Max. 10.40 15.43 19.20 20.09 22.80 33.90
结果不言而喻,因为keepstates保存到with()之外的全局环境中,而nookeepstates没有,所以当离开了with(),只有keepstates存在。
2.实力标识符
通过row.names=某个变量指定实例标识符,我的理解,是我们在学校的学号,工作中的工号那样的作用
patientdata<-data.frame(patientID,age,diabetes,status,row.names=patientID)将patientID指定为R中标记各类打印输出和图形中实例名称所用变量(这是书本的原话),我的理解是patientID是数据框中唯一可以标识身份的变量。每个实例或者说是观测来说是独一无二的。
2.2.5 因子(决定数据的分析方式和视觉呈现方式)
变量 | ||
名义型变量 | 没顺序的类别变量 | 因子 |
有序型变量 | 有顺序关系,没数量关系 | 因子 |
连续型变量 | 同时有顺序和变量 | ---- |
函数:factor()
作用:以整数向量形式存储类别值,从1开始,将一个由字符串(原始值)组成的内部向量映射到这些整数上。
将原始值转化成数值型变量
- 名义型变量--->以整数向量形式存储
disabetes <- c("Type1", "Type2" ,"Typye1", "Type1")> diabetes<-factor(diabetes) #将向量diabetes存储为(1,2,1,1) > diabetes #关联关系为1=Type1,2=Type2 (赋值根据字母顺序定) [1] Type1 Type2 Type1 Type2 Levels: Type1 Type2 > str(diabetes) Factor w/ 2 levels "Type1","Type2": 1 2 1 2
注意:针对diabetes的任何分析都将作为名义型向量对的,并自动选择适合这一测量尺度的统计方法。
- 有序型变量---->以整数向量形式存储(在factor()函数中药加入参数ordered=TRUE)
> status<-c("Poor","Improved","Excellent","Poor") > status [1] "Poor" "Improved" "Excellent" "Poor" > status<-factor(status,ordered=TRUE,levels = c("Poor","Improved","Excellent")) #因子的水平默认依据字母顺序而定,levels覆盖默认排序 > str(status) Ord.factor w/ 3 levels "Poor"<"Improved"<..: 1 2 3 1
注意:针对此变量进行的任何分析都会作为有序型变量对待,并自动选择合适的统计方法
- 数值型变量(需要用到参数levels和labels)
假设男性编码成1,女性编码成2> sex<-c(1,1,2) > sex<-factor(sex,levels = c(1,2),labels = c("Male","Female")) > str(sex) Factor w/ 2 levels "Male","Female": 1 1 2
注意:标签的顺序labels = c( "Male", "Female")和水平一致levels = c( 1, 2 )
标签"Male"和"Female"将代替1和2在结果种输出,而不是1或者2的性别变量将被当作缺失值。> sex<-c(1,2,3) > sex<-factor(sex,levels = c(1,2),labels = c("Male","Female")) > str(sex) Factor w/ 2 levels "Male","Female": 1 2 NA
下面看普通因子和有序因子如何影响数据分析
#以向量形式输入patientID <- c(1, 2, 3, 4) age <- c(25, 34, 28, 52) diabetes <- c("Type1", "Type2", "Type1", "Type1") status <- c("Poor", "Improved", "Excellent", "Poor") #将diabetes指定为普通因子diabetes <- factor(diabetes)#将status指定为有序型因子 status <- factor(status, order=TRUE)#将数据合并为数据框 patientdata <- data.frame(patientID, age, diabetes, status)#str(object)显示对象的结果,提供R中某个对象(此例为数据框)的信息 str(patientdata)$summary() 区别对待各个变量,显示对象的统计概要 summary(patientdata)
运行后
> str(patientdata) 'data.frame': 4 obs. of 4 variables: $ patientID: num 1 2 3 4 $ age : num 25 34 28 52 $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 2 $ status : Factor w/ 3 levels "Excellent","Improved",..: 3 2 1 3 > summary(patientdata) patientID age diabetes status Min. :1.00 Min. :25.00 Type1:2 Excellent:1 1st Qu.:1.75 1st Qu.:27.25 Type2:2 Improved :1 Median :2.50 Median :31.00 Poor :2 Mean :2.50 Mean :34.75 3rd Qu.:3.25 3rd Qu.:38.50 Max. :4.00 Max. :52.00
运行str()后,清楚地显示diabetes是一个因子,status是有序型因子以及数据框在内部如何编码
运行summary()后,各个变量区别被对待,显示连续型变量age的最小值、最大值、均值、四分位数。而diabetes和status(各水平)这两个因子则显示频数值。
2.2.6 列表
定义:对象(或成分)的有集合。允许整合若干(可能无关)对象到单个对象名下。
因此,某个对象可能是若干向量、矩阵、数据框甚至其他列表的组合。
创建列表的函数: list()
mylist <- list( object1, object2,...)
列表中的对象命名: mylist<- list(name1 = object1,name2 = object2)
g<-"My First List" #字符串 h<-c(25,26,18,39)#数值型向量 j<-matrix(1:10,nrow=5)#5*2的矩阵 k<-c("one","two","three")#字符型向量 mylist<-list(title=g,h,j,k) #创建列表,其中,第一个对象命名为title
> mylist $title [1] "My First List" [[2]] [1] 25 26 18 39 [[3]] [,1] [,2] [1,] 1 6 [2,] 2 7 [3,] 3 8 [4,] 4 9 [5,] 5 10 [[4]] [1] "one" "two" "three"
访问列表中的元素 1.可通过双括号致命带包某个成分的数字。2.通过名称
> mylist[[1]] [1] "My First List" > mylist[["title"]] [1] "My First List" > mylist$title #要命名了才可以 [1] "My First List"
以上是基本的各种数据结构。
2.3 数据的输入
2.3.1 使用键盘输入数据
函数:edit()调用允许手动输入数据的文本编辑器
步骤:创建空数据框,其中变量名和变量的模式与最终的数据集要一致-->对这个数据对象调用文本编辑器-->键入数据-->保存
例子:创建一个名为mydata的数据框,含三个变量:age(数值型),gender(字符型),weight(数值型)-->调用文本编辑器edit()-->键入数据-->保存结果
mydata<- data.frame(age = numeric(0),gender = character(0),weight=numeric(0)) mydata<-edit(mydata)
说明:age=numeric(0)创建指定模式但不含实际数据的变量。编辑结果需要赋值回对象本身,因为edit()实际上是对对象的副本操作,不赋值到一个目标,你的所有修改将全部丢失。
关闭编辑器后,结果会保存到之前赋值的对象中,本例为mydata。fix(mydata)与edit(mydata)
直接在程序中嵌入数据集
mydatatxt <- " age gender weight 25 m 166 30 f 115 18 f 120 " mydata <- read.table(header=TRUE, text=mydatatxt)
说明:一个字符型变量被穿鉴于存储原始数据,然后read.table()处理字符串并返回数据框、
2.2.3 从带分隔符的文本文件导入数据
mydataframe<-read.table(file,options)
file--带分隔符的ASCII文本文件
options--控制如何处理数据的选项。
2.2.4 导入excel数据
read.xlsx(file,n)
file--Excel工作簿所在路径
n--导入的工作表序号
其它的方式等遇到再看。
来源:https://www.cnblogs.com/linliyuan/p/7894915.html