GEO基因芯片数据处理精华(一):GEOquery包

五迷三道 提交于 2019-12-22 06:15:39

合作研究请联系QQ 2279055353

GEO(Gene Expression Omnibus)是NCBI(美国国家生物信息中心)下的基因表达数据库,包括各种各样的基因芯片检测技术得到的试验记录与平台信息。GEO是最具知名度的基因表达数据存储数据库,这些数据包括单通道和双通道的微阵列实验,测量对象包括mRNA, 基因组cDNA, 蛋白质冗余物,以及各种非阵列技术,例如,高通量测序技术。现在,我们介绍GEO数据库的检索、下载,以及数据的预处理方法。首先,我们介绍GEO数据集查询R语言包——GEOquery.

GEOquery包的下载与安装

GEOquery包位于生物信息开源软件库Bioconductor, 在Bioconductor主页的搜索栏输入GEOquery回车后,出现了下载项。
在这里插入图片描述

在这里插入图片描述
按照安装提示在R控制台安装即可。

GEO数据组织结构

GEO上的数据通常有四种组织形式,它们分别是:

  • Platforms
  • Samples
  • Series
  • Datasets

其中,前三种形式由用户提交,第四种数据集的形式由GEO整理汇总。

Platforms

一个platform记录描述了阵列上的元素列表,例如,cDNA, 探针,ORFs, 抗体等。每个平台记录有一个唯一的GEO访问符GPLxxx. 一个平台记录可能包括由多个用户提交的多个样本。

Samples

一个sample记录描述了一个生物学样本试验的条件。每个样本记录有一个唯一的GEO访问符GSMxxx. 一个样本只能属于一个平台,但可以包括多个序列。

Series

一个series记录定义了一个相关的样本集合。每个序列记录有一个唯一的GEO访问符GSExxx.

Datasets

一个dataset(GDSxxx)是一套经过整理的样本数据集,这些数据在生物学与统计学意义下是可以比较的。GDS的样本来自同一个平台,可以直接用于下游的数据分析任务。

使用GEOquery

下载安装GEOquery后,在R环境加载包后就可以使用它的函数了。

library(GEOquery)

函数getGEO()从GEO网站在线下载数据集。最简单的下载方式,只需要输入数据集的访问符。例如,

# If you have network access, the more typical way to do this
# would be to use this:
# gds <- getGEO("GDS507")
gds <- getGEO(filename=system.file("extdata/GDS507.soft.gz",package="GEOquery"))

现在,gds包括一个GDS类的数据结构,它表示来自GEO的GDS507, 你也可以使用这个函数下载其它类型的GEO数据。

GEOquery 数据结构

GEOquery 数据结构主要分两种形式。第一种形式包括GDS, GPL, GSM. 第二种形式主要指GSE, 它是GSM与GPL的组合。

GDS, GPL, and GPL 类

这三种类都包括一个元数据(metadata)头和一个GEO数据表。GEO数据表有两个简单的部分组成,一个部分描述了数据表的列变量,另一个表示数据。使用show()方法显示元数据。

head(Meta(gsm))

在这里插入图片描述

Table(gsm)[1:5,]

在这里插入图片描述

Columns(gsm)

在这里插入图片描述

GSE 类

一个GSE类的实例可以包括来自多个平台的样本,GSE类也有一个元数据部分,然而,它没有GEO数据表,而是有两个列表,分别表示GPL, GSM对象,用GPLList, GSMList方法可以访问。

# Again, with good network access, one would do:
# gse <- getGEO("GSE781",GSEMatrix=FALSE)
gse <- getGEO(filename=system.file("extdata/GSE781_family.soft.gz",package="GEOquery"))
head(Meta(gse))

在这里插入图片描述

# names of all the GSM objects contained in the GSE
names(GSMList(gse))

在这里插入图片描述

# and get the first GSM object on the list
GSMList(gse)[[1]]
# and the names of the GPLs represented
names(GPLList(gse))

在这里插入图片描述

未完待续

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!