针对DNA、RNA以及蛋白质序列,我们需要对其进行序列相似性搜索,来研究分析不同序列在结构和功能上相同与差异
-
相似性【similarity】/一致性【identity】 <==> 双序列比对( Pairwise sequence Alignment )
-
同源性【homology】 <==> 多序列比对 (Multiple Sequence Alignment)
- 旁系同源【paralogs】:同祖同种不同功
- 直系同源【orthologs】:同祖不同种同功
序列之间的相似性越高 => 序列为同源序列的可能性越高但同源序列不一定相似(趋异进化),相似序列不一定同源(趋同进化)
双序列比对:
全局比对 / 局部比对
局部比对:寻找最优匹配的 子序列
最佳比对查找方法:动态规划算法(Dynamic programming)
-
Needleman-Wunsch Algorithm(for Global Alignment )
-
Smith-Waterman Algorithm(for Local Alignment)
常用工具:BLAST FASTA
BLAST:
Blastn:核酸检索核酸库
Blastp:蛋白质检索蛋白质库
Blastx:核酸(先翻译6ORFs)检索蛋白质库
tblastn:蛋白质检索核酸库(先翻译)
tblastx:核酸(先翻译)检索核酸库(先翻译)
PSI-BLAST:远亲蛋白
bl2seq:two seq
FASTA:
FASTA <=> Blastn;Blastp
FASTX <=> Blastx
TFASTAX <=> tblastn
蛋白质计分矩阵
PAM ( accepted point mutations )
BLOSUM ( blocks substitution matrix )
多序列比对
- 精确法 (Exact)/ 高维动态规划算法 (DP): 慢,耗内存 , 序列极少时才可行
- 渐进法 (Progressive methods): CLUSTALW( 树形比对 )、 星形比对
- 迭代法 (Iterative methods): non-stochastic: MAFFT, MUSCLE; stochastic:
GA, SA, HMM - 一致法 (Consistency-based methods): T-Coffee
- 基序法 (Motif finding)/ 轮廓分析法 Profile analysis)
来源:CSDN
作者:HHTING
链接:https://blog.csdn.net/qq_42937176/article/details/104543834