序列比对

生物信息学 之 序列比对

喜欢而已 提交于 2020-02-27 21:46:41
针对DNA、RNA以及蛋白质序列,我们需要对其进行序列相似性搜索,来研究分析不同序列在结构和功能上相同与差异 相似性【similarity】/一致性【identity】 <==> 双序列比对( Pairwise sequence Alignment ) 同源性【homology】 <==> 多序列比对 (Multiple Sequence Alignment) 旁系同源【paralogs】:同祖同种不同功 直系同源【orthologs】:同祖不同种同功 序列之间的相似性越高 => 序列为同源序列的可能性越高 但 同源序列不一定相似(趋异进化),相似序列不一定同源(趋同进化) 双序列比对: 全局比对 / 局部比对 局部比对:寻找最优匹配的 子序列 最佳比对查找方法:动态规划算法(Dynamic programming) Needleman-Wunsch Algorithm(for Global Alignment ) Smith-Waterman Algorithm(for Local Alignment) 常用工具: BLAST FASTA BLAST: Blastn:核酸检索核酸库 Blastp:蛋白质检索蛋白质库 Blastx:核酸(先翻译6ORFs)检索蛋白质库 tblastn:蛋白质检索核酸库(先翻译) tblastx:核酸(先翻译)检索核酸库(先翻译) PSI-BLAST

双序列比对的理论基础之建造替换矩阵的合理性证明

大憨熊 提交于 2020-01-26 19:39:32
双序列比对的理论基础之建造替换矩阵的合理性证明  前言:如果对最大似然估计没有概念的话,可以看看我之前写的《似然,似然,似是而然》  结合前几篇文章我们大致的了解了计分矩阵的流程:对某以蛋白质家族进行多序列对比,然后按某一阈值(等同残基比)进行聚类,之后将匹配的无空位的区域划分为block,然后统计各个block中残基之间的联配的频率,用归一化的频率估计概率,进行 最大似然估计 ,估计出在自然界中各残基联配的概率(即匹配模型M的参数)。   《双序列比对的基础(2)之替换(计分)矩阵系列》提出了疑问:怎么没进行最大似然估计啊?没有列似然函数啊,没有求极值点啊。从样本数据得到的频率怎么直接估计为总体的参数呢? 所以怀疑建造的替换矩阵是不合理的!  那么本文就探讨探讨这个问题。  首先,之前我们说过我们必须将生物学的问题抽象成数学模型。而残基对之间的联配可看做是多项分布。多项分布是二项分布的推广。  二项分布就是我抛出一枚硬币,它的结果不是正面就是反面。我们抛出10次,计算出现5次正面的概率很简单。而多项分布则是我扔色子会有六种状态,现在我扔了十次,我想知道出现事件A(A事件=点数为1出现2次和点数为2出现4次和点数为3出现1次和点数为4出现1次和点数为5出现1次和点数为6出1次。)的概率是多少?注意在多项分布中,每个状态出现的频率必须大于0!  

双序列比对的理论基础(一)

人盡茶涼 提交于 2020-01-16 04:06:24
双序列比对的理论基础(一) 比对的具体流程: 1使用字符串模拟生物序列,那么两条序列的相似性比对可看成两个字符串的对齐,运用特定的算法搜索所有可能的比对方案。 2 采用具有生物学意义的打分机制(替换矩阵),衡量算法的比对结果,获得最优比对。 1.1 字符模型的建立。 两条序列x和y; 长度分别为m和n; x i 表示序列x中的第i个字符。 y i 表示序列y中的第i个字符。 这些字符全部来自字母表Ω={A、T、C、G} 表示是基因序列。 或者全来自Ω={A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V、X}。表示是氨基酸序列。 比对结果的输出模型:输出的结果可能是含有空位(gap),所以字符表中得添加上“——”,表示序列进化中,发生了插入或缺失。 2.1 打分机制的建立 我们现在得建立一个打分机制,对我们序列比对的结果进行评估也就是进行量化。而前人已经为我们建好了。从概率论角度来描述就是: 序列相关之于无关的的对数相对似然 。 这句话是《生物序列分析》书中的原话,初次读到这句时候,也是一脸懵b。啥是相关啥又是无关?似然又是什么鬼? 下面我们就探讨一下机制建立的过程。 2.1.1打分机制建立的假设:   1,接受进化论的观点。即是基于进化论的模型,即两条待对比的序列是有同一条“祖先”序列进化而来。这句话其实对应着书中一开始提到的 大自然是修补匠

如何绘制漂亮的多序列比对图片

梦想与她 提交于 2019-12-23 19:01:57
1. 下载多序列比对软件 下载链接:https://pan.baidu.com/s/1RYDRQws8DUYLhB7rvXoiGg 2. 序列比对 3. 序列比对结果保存 输出结果保存为aln后缀 4 . 图片绘制 网站:http://espript.ibcp.fr/ESPript/ESPript/index.php a. 开始新的工作 ( 自己的) b.输入需要的文件 输入比对好的文件 输入pdb文件( 与比对序列关系较近的即可) 点击提交 允许浏览器弹框(不然看不到结果,。。。。) 结果查看 注意:有的浏览器可以做不出来,并不代表我们做错了。可能是浏览器自身的问题。个人建议用IE比较好。WIN10的同学建议使用自带的浏览器。 来源: https://www.cnblogs.com/lmt921108/p/9074119.html

[SAMtools] 常用指令总结

↘锁芯ラ 提交于 2019-12-23 04:58:03
源自:http://sanwen.net/a/hirxmpo.html samtools是一系列处理bam和sam格式文件的应用程序集合,具有众多的功能。 首先呢,bam和sam文件主要是bwa、bowtie、tophat等序列比对工具产生的,这些软件我们后面会谈到。 软件下载安装: 地址:https://sourceforge.net/projects/samtools/ 解压下载后的压缩文件,然后你会看到README文件,里面有详细的安装操作说明。 安装成功后,运行samtools,你会看到: 目前最新版本是1.3.1 下面我们针对samtools的主要命令以及参数做个实例演示。 操作文件下载: wget http://popgen.dk/software/download/angsd/bams.tar.gz 解压后,在bams文件夹下,你会看到10个bam文件: 名字太复杂,进行批量重命名 rename "s/.mapped.ILLUMINA.bwa.CEU.low_coverage.20111****14.bam//" * 结果如下: 1、view 主要功能:sam和bam文件之间相互转换,针对bam文件进行相关操作。bam文件是sam文件的二进制格式,占据内存较小且运算速度快。 查看view的主要参数: 重要参数释义: -b:输出bam格式,用于后续分析 -C

序列比对(25)编辑距离

匿名 (未验证) 提交于 2019-12-03 00:03:02
本文介绍两个字符串的编辑距离并给出代码。 编辑距离 所谓编辑距离,就是给定两个字符串后,将一个字符串变为另一个字符串所需要花费的最少步骤。这个改变包括“插入一个字符”、“删除一个字符”,“替换一个字符”。比如: v = T G C A T A T \bm{v}=TGCATAT v = T G C A T A T 与 w = A T C C G A T \bm{w}=ATCCGAT w = A T C C G A T 这两个字符串的编辑距离为4。 编辑距离的求解过程和全局比对是十分相似的(关于全局比对,可以参见前文《序列比对(一)全局比对Needleman-Wunsch算法》),都需要全部符号参与比对,都允许插入、缺失和错配。所以,编辑距离可以用动态规划算法求解,其迭代公式是: F ( i , j ) is the minimum score of alignments between x 1 … i and y 1 … j . F ( i , 0 ) = i for i = 0 … m . F ( 0 , j ) = j for j = 1 … n . s ( i , j ) = { 0 if x i = y j , 1 otherwise. F ( i , j ) = min { F ( i 1 , j ) + 1 , F ( i , j 1 ) + 1 , F ( i 1 ,

sam格式

不想你离开。 提交于 2019-12-01 01:58:06
SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示。 aln格式,是比对视图化的展示,存储的信息不够结构化,无法方便的作为另外程序的输入。 SAM则: 非常多序列(read),mapping到多个参考基因组(reference)上; 同一条序列,分多段(segment)比对到参考基因组上; 无限量的,结构化信息表示,包括错配、删除、插入等比对信息; SAM分两部分,注释信息(header section)和比对结果部分(alignment section), 注释信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有@SQ,参考序列说明;@RG,比对上的序列(read)说明 比对结果部分(alignment section),每一行表示一个片段(segment)的比对信息,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tag分割。 必须的字段有11个,顺序固定,不可用时,根据字段定义,可以为’0‘或者’*‘,这是11个字段包括: QNAME,比对片段的(template)的编号; FLAG,位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和; RNAME,参考序列的编号,如果注释中对SQ