合作研究请联系QQ 2279055353
GEO(Gene Expression Omnibus
)是NCBI(美国国家生物信息中心)下的基因表达数据库,包括各种各样的基因芯片检测技术得到的试验记录与平台信息。GEO是最具知名度的基因表达数据存储数据库,这些数据包括单通道和双通道的微阵列实验,测量对象包括mRNA
, 基因组cDNA
, 蛋白质冗余物,以及各种非阵列技术,例如,高通量测序技术。现在,我们介绍GEO数据库的检索、下载,以及数据的预处理方法。首先,我们介绍GEO数据集查询R语言包——GEOquery
.
GEOquery包的下载与安装
GEOquery包位于生物信息开源软件库Bioconductor
, 在Bioconductor主页的搜索栏输入GEOquery
回车后,出现了下载项。
按照安装提示在R控制台安装即可。
GEO数据组织结构
GEO上的数据通常有四种组织形式,它们分别是:
- Platforms
- Samples
- Series
- Datasets
其中,前三种形式由用户提交,第四种数据集的形式由GEO整理汇总。
Platforms
一个platform
记录描述了阵列上的元素列表,例如,cDNA, 探针,ORFs, 抗体等。每个平台记录有一个唯一的GEO访问符GPLxxx
. 一个平台记录可能包括由多个用户提交的多个样本。
Samples
一个sample
记录描述了一个生物学样本试验的条件。每个样本记录有一个唯一的GEO访问符GSMxxx
. 一个样本只能属于一个平台,但可以包括多个序列。
Series
一个series
记录定义了一个相关的样本集合。每个序列记录有一个唯一的GEO访问符GSExxx
.
Datasets
一个dataset
(GDSxxx)是一套经过整理的样本数据集,这些数据在生物学与统计学意义下是可以比较的。GDS的样本来自同一个平台,可以直接用于下游的数据分析任务。
使用GEOquery
下载安装GEOquery
后,在R环境加载包后就可以使用它的函数了。
library(GEOquery)
函数getGEO()
从GEO网站在线下载数据集。最简单的下载方式,只需要输入数据集的访问符。例如,
# If you have network access, the more typical way to do this
# would be to use this:
# gds <- getGEO("GDS507")
gds <- getGEO(filename=system.file("extdata/GDS507.soft.gz",package="GEOquery"))
现在,gds
包括一个GDS类的数据结构,它表示来自GEO的GDS507
, 你也可以使用这个函数下载其它类型的GEO数据。
GEOquery 数据结构
GEOquery 数据结构主要分两种形式。第一种形式包括GDS
, GPL
, GSM
. 第二种形式主要指GSE
, 它是GSM与GPL的组合。
GDS, GPL, and GPL 类
这三种类都包括一个元数据(metadata
)头和一个GEO数据表。GEO数据表有两个简单的部分组成,一个部分描述了数据表的列变量,另一个表示数据。使用show()
方法显示元数据。
head(Meta(gsm))
Table(gsm)[1:5,]
Columns(gsm)
GSE 类
一个GSE类的实例可以包括来自多个平台的样本,GSE类也有一个元数据部分,然而,它没有GEO数据表,而是有两个列表,分别表示GPL, GSM对象,用GPLList
, GSMList
方法可以访问。
# Again, with good network access, one would do:
# gse <- getGEO("GSE781",GSEMatrix=FALSE)
gse <- getGEO(filename=system.file("extdata/GSE781_family.soft.gz",package="GEOquery"))
head(Meta(gse))
# names of all the GSM objects contained in the GSE
names(GSMList(gse))
# and get the first GSM object on the list
GSMList(gse)[[1]]
# and the names of the GPLs represented
names(GPLList(gse))
未完待续
来源:CSDN
作者:Goodsta
链接:https://blog.csdn.net/wong2016/article/details/103641389