dna序列

xgene:之ROC曲线、ctDNA、small-RNA seq、甲基化seq、单细胞DNA, mRNA

放肆的年华 提交于 2019-12-22 05:16:38
灵敏度 高 == 假阴性率低,即漏检率低,即有病人却没有发现出来的概率低。 用于判断:有一部分人患有一种疾病, 某种检验方法 可以在人群中检出多少个病人来。 特异性 高 == 假阳性率低,即错把健康判定为病人的概率低。 用于:被某种试验判定为患病的人中,又有多少是 真的患了这种病 的。 好的检测方法: 有高的灵敏度(低的假阴性率)、同时又有高的特异性(低的假阳性率)。 ROC 曲线: 横轴:100 — 特异性。。即100减去特异性,特异性高,100减去特异性就低,故越小越好。 纵轴:灵敏度值。 ROC分析图的解读原则: 曲线越是靠近整个图的 左上方,方法越优 ; 越是接近 对角线,方法越差 ; 评价的 客观标准 是 曲线下方的面积占整个图的面积比例 。即AUC(曲线下面积,Area Under Curve,AUC)。 面积比例越接近1,方法越好 ;面积比例越接近0.5,方法越差。 ctDNA 循环肿瘤DNA,英文叫:circulating tumor DNA,简称ctDNA。对ctDNA进行测序,是目前很火的Liquid Biopsy(液体活检)中的一种。 意义 首先,我们来说一下ctDNA测序的临床意义。 第一,就是它可以减少病人的开刀痛苦, 只要抽血 ,不必开刀,就可以做检测。 第二,是它可以 增加可检测的病人范围 ,对于不适合做开刀手术的病人。例如,已经发生肿瘤全身转移的病人

[Python] 一阶马尔科夫链生成随机DNA序列

允我心安 提交于 2019-12-05 12:22:46
1. 原理   对于DNA序列,一阶马尔科夫链可以理解为当前碱基的类型仅取决于上一位碱基类型。如图1所示,一条序列的开端(由B开始)可能是A、T、G、C四种碱基(且可能性相同,均为0.25),若序列的某一位是A,则下一位碱基是A、T、G、C的概率分别为0.25、0.20、0.20、0.20,下一位无碱基(即序列结束,状态为E)的概率为0.15。 2. 代码实现   以下代码运行于Jupyter Notebook (Python 3.7);代码功能是随机生成一定数量的DNA序列,统计序列长度并绘制分布图。若希望显示随机生成的序列,将代码 # print(''.join(Seq)) 前的 # 删除即可。 import numpy import random import seaborn as sns import matplotlib.pyplot as plt # 状态空间 states = ["A","G","C","T","E"] # 可能的事件序列 transitionName = [["AA","AG","AC","AT","AE"], ["GA","GG","GC","GT","GE"], ["CA","CG","CC","CT","CE"], ["TA","TG","TC","TT","TE"],] # 概率矩阵(转移矩阵) transitionMatrix = [[0

Unnatural

六月ゝ 毕业季﹏ 提交于 2019-12-04 18:28:44
1. 纪录片:非自然选择 1.1 CRISPR-Cas9的出现 1.2 故事1:先天性基因缺陷而失明的小孩 1.3 故事2:基因变异的蚊子 1.4 基因技术应用的现状 1.5 担忧 2. CRISPR基因编辑 2.1 Cas9 2.2 Cas12a(以前称为Cpf1) 2.3 Cas9与Cpf1 2.4 Anti-CRISPR 2.5 CRISPR/Cas工具 3. 基因敲除 4. DNA,RNA,染色体,基因,蛋白质 4.1 概念 4.2 DNA和RNA 4.3 物质关系: 4.4 功能关系: 4.5. 核酸模拟软件比较 5. RNA干扰(RNAi) 6. 生物黑客(biohack) 7. 其他链接 关键字: biohackers, 生物黑客(Biohack), CRISPR, 基因编辑, Unnatural Selection, 物竞人择 本文大部分内容为维基百科摘录,详细信息请看相关链接! 1. 纪录片:非自然选择 https://en.wikipedia.org/wiki/Unnatural_Selection_(TV_series) 非自然选择(或程式化的,物竞人择)是Netflix在2019年10月发行的电视纪录片。 概述基因工程,DNA编辑技术 CRISPR,从科学家,企业和角度探讨,biohackers在他们自己家做试验(车库实验室). 导演: 里奥·考夫曼, 乔

BJFU_数据结构习题_256病毒感染监测

瘦欲@ 提交于 2019-12-02 11:20:25
256病毒感染监测 描述 医学研究者最近发现了某些新病毒,通过对这些病毒的分析,得知它们的DNA序列都是环状的。现在研究者收集了大量的病毒DNA和人的DNA数据,想快速检测出这些人是否感染了相应的病毒。为方便研究,研究者将人的DNA和病毒的DNA均表示成由一些小写字母组成的字符串,然后检测某种病毒的DNA序列是否在患者的DNA序列中出现过,如果出现过,则此人感染了病毒,否则没有感染。注意:人的DNA序列是线性的,而病毒的DNA序列是环状的。 输入 多组数据,每组数据有一行,为序列A和B,A对应病毒的DNA序列,B对应人的DNA序列。A和B都为“0”时输入结束。 输出 对于每组数据输出一行,若患者感染了病毒输出“YES”,否则输出“NO”。 输入样例 1 abbab abbabaab baa cacdvcabacsd abc def 0 0 输出样例 1 YES YES NO 来源: https://blog.csdn.net/weixin_43722827/article/details/102755675

基因组学技术新进展与展望

末鹿安然 提交于 2019-11-30 19:37:12
基因组学技术新进展与展望 于军 任鲁风 王绪敏 (中国科学院北京基因组研究所) 近十年来,由“下一代测序(next generation sequencing; NGS)”技术引领的基因组科学与技术正在一个空前的高速度推动下迅猛发展。这个发展势头的加速度之高,其研究成果在生物医学以及其他各生物相关领域应用和推广的渗透力之强,其对科学总体发展和社会进步的影响之大,使我们不得不刮目相看,必须要阖目冥思。首先,就中国生命科学与技术的发展而言,在过去的40年里,我们既没有掌握以DNA测序为核心的基因组核心技术,也没在相关仪器、试剂与耗材的研发方面取得任何突破性进展,更没有建立具有权威性、实用性、永久性和用户友好的相关数据库和知识库体系,所以任何技术源头的控制、高技术含量的仪器禁运和数据传运光缆的故障等都会大面积地、深刻地影响到中国生命科学的发展进程,至少在科学源头创新和发展速度上一定如此。其次,尽管在过去的十年里中国科学家积极参与了数个国际化的基因组学研究计划(包括人类基因组计划、人类基因组单倍体型图计划、千人基因组计划等),但是我国基因组学研究整体仍处在“拿着别人造的枪,装着买来的弹,打着别人打剩下的鸟”的基本局面。尤其在仪器和设备研发上,还处在“一无所有”的初级阶段。尽管各中原由诸多,且十分错综,我们仍应实事求是,回顾历程,分析现状,为未来的发展找到务实性的道路。

leetcode 重复的DNA序列

女生的网名这么多〃 提交于 2019-11-28 15:03:32
所有 DNA 由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。 编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列(子串)。 示例: 输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出: ["AAAAACCCCC", "CCCCCAAAAA"] 来源:力扣(LeetCode) 链接: https://leetcode-cn.com/problems/repeated-dna-sequences 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。 算法一:暴力枚举 算法二:哈希表优化循环第二维,将值都存起来,查找即可 class Solution { public: vector<string> findRepeatedDnaSequences(string s) { unordered_map<string,int> hash; vector<string> res; for(int i=0;i+10<=s.size();++i){ string now = s.substr(i,10); if(hash[now]==1)res.push_back(now); hash[now]++; } return

重复的DNA序列[哈希表] LeetCode.187

回眸只為那壹抹淺笑 提交于 2019-11-28 04:13:32
所有 DNA 由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。 编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列(子串)。 示例: 输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出: ["AAAAACCCCC", "CCCCCAAAAA"] 思路: 设置一个hash表,存储已经出现过的十位字串; 遍历字符串,截取十位字串,并更新哈希表; 如果字串已经在hash表中,且只出现过一次的时候便将其加入到答案数组(只一次时加入,二次就不加了,为了防止重复) 代码如下: vector<string> findRepeatedDnaSequences(string s) { unordered_map<string,int> hash; string st;vector<string>ans; for(int i = 0 ; i < s.size();i++){ st = s.substr(i,10); if(1==hash[st]++ )ans.push_back(st); } sort(ans.begin(),ans.end()); return ans; } 来源:力扣(LeetCode) 链接: https:/