snp

人类基因组概况--整理

北城余情 提交于 2020-03-26 08:25:55
人类基因组概况:             人类基因组由ATCG四种碱基组成,但是CG的含量低于50%,所以CG含量低于AT含量。         一个基因组的dna大约3ug。   snp:     平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。     人类基因组的突变频率10的-6次方。即:每10的6次方个碱基,就会发生一个突变。    基因组长度:     人类基因组有30亿个碱基(3*10的10次方)。人类基因组的exon的长度大约1*10的7次方,占基因组的2%~3%。     假如平均一个protein的长度为500个amino acid(氨基酸),那么编码一个protein需要的碱基数为500*3=1500bp=1.5kb。那么,1个protein占exon的碱基数:1500/(1*10的7次方)≈10的4次方,即1个protein占exon碱基数的万分之一。   基因类型:     Ensemble数据库中有5万多个基因。其中,2万多个蛋白编码基因,还有假基因、microRNA、LincRNA等。GeneCode的gtf文件中,有一列是genetype,它分的类型是:protein coding、LincRNA、假基因。     即:基因可分为两大类编码蛋白的基因(包括:protein coding gene、pseudogene、LincRNA

SNP芯片的原理

我怕爱的太早我们不能终老 提交于 2020-01-17 00:41:48
Illumina的SNP芯片原理 Illumina的SNP生物芯片的优势在于: 第1,它的检测通量很大,一次可以检测几十万到几百万个SNP位点 第2,它的检测准确性很高,它的准确性可以达到99.9%以上 第3,它的检测的费用相对低廉,大约一个90万位点的芯片(每个样本的)检测费用在一、两千人民币 Illumina的生物芯片系统,主要是由:芯片、扫描仪、和分析软件组成。 Illumina的生物芯片,由2部分组成: 第1是玻璃基片,第2是微珠 。 这个玻璃基片,它的大小和一张普通的载玻片差不多大小,它起到的作用,就是给微珠做容器。 在这个玻璃基片上,通过光蚀刻的方法,蚀刻出许多个排列整齐的小孔。每个小孔的尺寸都在微米级,这些小孔是未来容纳微珠的地方。小孔的大小与微珠正好相匹配,一个小孔正好容纳一个微珠。 微珠是芯片的核心部分,微珠的体积很小,只有微米级。 每个微珠的表面,都各偶联了一种序列的DNA片段。每个微珠上,有几十万个片段,而一个珠子上的片段,都是同一种序列。 这些DNA片段 的长度是73个碱基 ,而这73个碱基又分成2个功能区域。 靠近珠子的这一端的23个碱基的序列,被称为 Address序列 , 它也是DNA片段的5'端。它是标识微珠的标签序列 。标签序列,通过碱基的排列组合,得到许多可能,每种序列,就是相应微珠的身份证号码(ID号)。

xgene:WGS,突变与癌,RNA-seq,WES

不想你离开。 提交于 2019-12-22 02:13:36
人类全基因组测序06 SNP( single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了。 一个普通黄种人的基因组,与hg19这个参考基因组序列相比,会有350万个左右的SNP。又有大概2万个是落在外显子上的,而非同义的SNP有大概9千个。 所谓非同义的SNP,就是这些SNP是会引起蛋白质的序列变化的。    indel :(insertion & deletion)是指小于50个bp以内的微小的插入、和缺失突变。一个普通黄种人的基因组和hg19相比,约有50万个Indel。其中落在外显子上的,大概在1千个左右。     那么Indel如果一旦落在外显子区域,它 一定会 引起蛋白质序列变化的。       如果它引起的是移码突变,那么在移码位点之后,所有氨基酸序列就和原来的序列完全不同。       如果它(基因)还能保持原来的阅读框,也会引起蛋白质中若干个氨基酸的增或者减。    SV : structure variation 染色体结构变异      1、 染色体内部的位移 2、 染色体之间的位移 3、 大片段的缺失 4、 大片段的插入 5、 大片倍的加倍 6、 大片段的倒位    CNV :copy number variation 拷贝数变异, 是指染色体片段的拷贝数变异:包括拷贝数增加,也包括拷贝数减少

NCBI相关

懵懂的女人 提交于 2019-12-04 20:02:48
同变异相关的数据库: SNP: ftp://ftp-trace.ncbi.nih.gov/snp/organisms/ clinvar: ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar dbGap: ftp://ftp.ncbi.nlm.nih.gov/dbgap database of Genotypes and Phenotypes(基因型和表型数据库) 来源: https://my.oschina.net/u/3732258/blog/3130703

SNPs & MAF

匆匆过客 提交于 2019-12-03 07:19:13
SNPs,全称是single nucleotide polymorphisms,SNPs等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。 SNPs概念   在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性 。即:在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象。   只涉及到单个核苷酸碱基的变化,包括碱基的置换或颠换,插入和缺失等,但后两种少见。   从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106 个 。   因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。   现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现

SNP功能注释网站合集

拜拜、爱过 提交于 2019-12-02 19:42:27
这篇文章是对SNP位点功能注释在线网站的一个总结帖。 软件排名不分先后,优先顺序可以看推荐指数。 彩蛋在最后,请坚持看完 1、 GWAS4D , 推荐指数:**** 网址: http://mulinlab.tmu.edu.cn/gwas4d 支持输入格式 1) Variants Coordinates: Chr, Pos, [P-value] 支持输入格式 2) VCF-like Map: Chr, Pos, SNPID, Ref, Alt, [P-value] 支持输入格式 3) Single SNP ID: dbSNPID, [P-value] 支持输入格式 4) Plink-like Map: Chr, dbSNPID, Pos, [P-value] 分隔符为TAB 或者 comma 输出的结果有: SNP位点的优先排序 SNP位点在基因组区域的可视化 SNP功能预测和注释 1) SNP信息 2) Binding Affinity:SNP最可能影响的factors 3)功能预测、保守性得分 4) 相关的疾病,GWAS来源、临床相关来源 5) 外部链接 2、 SNPnexus ,推荐指数:*** 网址: https://www.snp-nexus.org/index.html 输入方式支持dbSNP rs#、基因组位置 支持GRCh38/hg38, GRCh37/hg19

PRS多基因风险评分的几个算法

纵饮孤独 提交于 2019-12-02 14:35:05
之前体验了一下 impute.me 的基因检测分析服务,其内容之丰富和详尽让我感到吃惊。基本上涵盖了几乎所有有影响的GWAS研究结果(GWAS-Catalog等来源),于是我感到很好奇,他的评估计算方法,于是再次打开其开源的github地址,找到了一些内容,学习一下。再次为这个项目点赞! 三种多基因风险评分方法 1.Basic count score 基本计数分数 基本上只是计算影响等位基因。这是多基因风险评分最简单的设置。直观理解-等位基因风险越高,得分越高。主要缺点是,它不能区分影响大小不同的SNP。 得分=Σ等位基因计数snp(I) Weighted-score 加权分数 由每个SNP的效应大小加权的得分。与具有较小效果大小的SNP相比,这具有对具有较大效果大小的SNP加权的额外好处。请注意,适用于二元特征的log(OR)的beta已更改。这种得分类型的唯一缺点是,它的规模是任意的,与其他人群相比,它几乎没有提供有关风险的信息。 加权分数= ΣBeta snp *效应等位基因计数snp(II) Z得分 以 标准偏差 给出的高于或低于该人群平均风险得分的得分。Z分数的此特定实现可在此处找到。的频率SNP是从1000个基因组数据的相关超群体获得。效果等位基因计数和Beta与以前的评分相同。该标准偏差的人口是根据计算出这个代码。在许多模块中,增加了一个额外的步骤

文献解读-eQTL-利用癌症公共数据库研究lncRNA (1)

删除回忆录丶 提交于 2019-12-01 18:33:18
转自 生信草堂 https://mp.weixin.qq.com/s?__biz=MzIyNzgyNDAxMg==&mid=2247485450&idx=1&sn=b7ffbd251ca8eb34933931dd8cdbd15d&chksm=e85a10e9df2d99ff905857cc131fb269d207038e30668c86eb09c4741a23d96a0eebdbb79b3d&scene=21#wechat_redirect lncRNA功能和机制的研究,成为了现如今科学界的“新宠”。超高的关注率,说明在这个领域能发表一篇高水准的科学论文,需要付出更多的努力和超前的思路。今天,就为大家带来 Nature Genetics 的一篇关于 lncRNA 的文章,让小编给大家一步步解释作者是如何通过整合 公共数据库 的结果,验证了作者的科学假设,发表了大 NG 。 简单介绍 论文题目 :Modulation of long noncoding RNAs by risk SNPs underlying genetic predispositions to prostate cancer 发表杂志 :Nature Genetics 发表年份 :2016年10月 影响因子 :27.959 文章解读 这篇文章中,作者并没有自己进行测序,而是用一些新的思路和巧妙的构思,结合了前列腺癌

GWAS Catalog数据库简介

蓝咒 提交于 2019-11-30 13:36:50
GWAS Catalog The NHGRI-EBI Catalog of published genome-wide association studies EBI负责维护的一个收集已发表的GWAS研究的数据库 Catalog stats Last data release on 2019-09-24 4220 publications 107486 SNPs 157336 associations Genome assembly GRCh38.p12 dbSNP Build 151 Ensembl Build 96 基本的搜索方法 搜索表型:如breast carcinoma,会得到相关的非常规范的表型信息,EFO,就像GO一样,是一套表型分类规则。然后还会得到表型相关的基因。 搜索SNP:如rs7329174,会得到变异的详细信息,和对应的基因。 搜索人名:Yao,会得到相关的文献 搜索染色体位置:如2q37.1,Cytogenetic region 搜索基因:如HBS1L 搜索区域:如6:16000000-25000000 说是数据库,其实就是一个table,从 这里 下载,不过100MB 表里面有这些数据: DATE ADDED TO CATALOG* +: Date a study is published in the catalog PUBMEDID* +:

annovar 注释除人类以外的SNP

只谈情不闲聊 提交于 2019-11-29 04:20:14
1. 准备文件:   ref.fa ref.gtf或者gff3,最好是gtf3,可将gff3转化为gtf sample.vcf 2. 用 gff3ToGenePred与gtfToGenePred工具 将gtf或gff3文件转化为reference_refGene.txt (软件来自http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/) gtfToGenePred.dms -genePredExt ref.gtf SP_refGene.txt & gtf: SpoScf_00032 maker exon 12508 13665 . + . transcript_id "Spo06120"; gene_id "Spo06120"; SpoScf_00032 maker exon 14070 17062 . + . transcript_id "Spo06120"; gene_id "Spo06120"; SpoScf_00032 maker exon 17626 17899 . + . transcript_id "Spo06120"; gene_id "Spo06120"; SpoScf_00032 maker exon 17979 18066 . + . transcript_id "Spo06120"; gene_id