基因芯片

GEO基因芯片数据处理精华(一):GEOquery包

五迷三道 提交于 2019-12-22 06:15:39
合作研究请联系QQ 2279055353 GEO( Gene Expression Omnibus )是NCBI(美国国家生物信息中心)下的基因表达数据库,包括各种各样的基因芯片检测技术得到的试验记录与平台信息。GEO是最具知名度的基因表达数据存储数据库,这些数据包括单通道和双通道的微阵列实验,测量对象包括 mRNA , 基因组 cDNA , 蛋白质冗余物,以及各种非阵列技术,例如,高通量测序技术。现在,我们介绍GEO数据库的检索、下载,以及数据的预处理方法。首先,我们介绍GEO数据集查询R语言包—— GEOquery . GEOquery包的下载与安装 GEOquery包位于生物信息开源软件库 Bioconductor , 在Bioconductor主页的搜索栏输入 GEOquery 回车后,出现了下载项。 按照安装提示在R控制台安装即可。 GEO数据组织结构 GEO上的数据通常有四种组织形式,它们分别是: Platforms Samples Series Datasets 其中,前三种形式由用户提交,第四种数据集的形式由GEO整理汇总。 Platforms 一个 platform 记录描述了阵列上的元素列表,例如,cDNA, 探针,ORFs, 抗体等。每个平台记录有一个唯一的GEO访问符 GPLxxx . 一个平台记录可能包括由多个用户提交的多个样本。 Samples 一个