基因探针

SNP芯片的原理

我怕爱的太早我们不能终老 提交于 2020-01-17 00:41:48
Illumina的SNP芯片原理 Illumina的SNP生物芯片的优势在于: 第1,它的检测通量很大,一次可以检测几十万到几百万个SNP位点 第2,它的检测准确性很高,它的准确性可以达到99.9%以上 第3,它的检测的费用相对低廉,大约一个90万位点的芯片(每个样本的)检测费用在一、两千人民币 Illumina的生物芯片系统,主要是由:芯片、扫描仪、和分析软件组成。 Illumina的生物芯片,由2部分组成: 第1是玻璃基片,第2是微珠 。 这个玻璃基片,它的大小和一张普通的载玻片差不多大小,它起到的作用,就是给微珠做容器。 在这个玻璃基片上,通过光蚀刻的方法,蚀刻出许多个排列整齐的小孔。每个小孔的尺寸都在微米级,这些小孔是未来容纳微珠的地方。小孔的大小与微珠正好相匹配,一个小孔正好容纳一个微珠。 微珠是芯片的核心部分,微珠的体积很小,只有微米级。 每个微珠的表面,都各偶联了一种序列的DNA片段。每个微珠上,有几十万个片段,而一个珠子上的片段,都是同一种序列。 这些DNA片段 的长度是73个碱基 ,而这73个碱基又分成2个功能区域。 靠近珠子的这一端的23个碱基的序列,被称为 Address序列 , 它也是DNA片段的5'端。它是标识微珠的标签序列 。标签序列,通过碱基的排列组合,得到许多可能,每种序列,就是相应微珠的身份证号码(ID号)。

芯片数据分析步骤5 过滤探针

匿名 (未验证) 提交于 2019-12-03 00:18:01
表达谱芯片上的探针往往能够覆盖到所有人类基因,也就是说,能够同时检测所有人类基因的表达。但先前的实验表明,一个细胞中不可能所有基因都同时表达,能够同时表达的基因反而是少数。同时表达的基因约占总基因的 40% 左右。 由于探针与目标之间一定存在着非特异性结合,所以所有的探针均会产生信号。如果不加以过滤,认为这些探针对应的基因都表达,即不符合事实,也会对后续的分析产生影响。因此,过滤掉表达量低的探针是十分必要的。 注意,limma包的说明里面提供了两点建议。一,如果要进行探针过滤(filter),最好在 进行标准化之后 再过滤。二,如果要在后续分析中使用limma包,请不要进行 基于方差(variance)的过滤 ,否则会影响方差分布,从而导致limma包处理产生糟糕的结果(poor results)。 bioconductor提供了两种过滤探针的方法,一种是使用专门进行探针过滤的genefilter包进行过滤,另一种是使用affy包中的mas5calls函数进行探针过滤。下面会详细解释如何进行探针过滤。 根据genefilter包的技术文档介绍,genefilter包设计的出发点是进行 independent filtering 。我们知道,检测差异基因表达是表达谱芯片最重要的功能之一。而检测差异基因表达的方法是进行对每一个基因进行统计检验。 所谓的independent

芯片数据分析步骤6 探针注释

匿名 (未验证) 提交于 2019-12-03 00:18:01
为了防止非特异性结合造成的干扰,芯片厂商往往会使用 多个探针 检测同一个基因的表达。因此,芯片厂商不会使用基因名作为探针的名称,而是使用自己定义的探针名称。要合并重复探针,我们必须先对探针进行注释,确定每个探针对应检测哪个基因的表达,然后再合并重复探针。而后续分析如GSEA,只能对基因进行分析,因此也要求对探针进行注释。 这个方法是金标准,但也是最不常用的方法。为什么呢?你去芯片厂商的网站上搜索一下就知道了。操作界面非常的user-unfriendly,我找了半天都没找到我想要的注释信息。就更别提下载下来对手头的芯片数据进行注释了。 这个方法比较常见,操作起来很简单,既可以手动下载GPL信息,也可以用GEOquery包下载GPL信息。唯一的问题就是GPL文件一般比较大,下载下来不是很方便,还要求我们有一定的R语言基础才能进行注释。 以下用一个例子来演示如何使用GPL文件注释探针。 首先找到你想要分析的芯片数据的信息。这里使用的是GEO数据库 GSE49382 的芯片数据。 点开GSE49382的页面,可以看到GPL信息。用红框框出。是031058-Agilent ATH NAT array的芯片。我尝试去bioconductor里寻找相关的注释包,没找到。也就是说这个芯片不能用bioconductor进行注释, 只能用GPL进行注释 。 点开GPL看看,可以看到GPL的注释信息。