生物信息学 之 序列比对
针对DNA、RNA以及蛋白质序列,我们需要对其进行序列相似性搜索,来研究分析不同序列在结构和功能上相同与差异 相似性【similarity】/一致性【identity】 <==> 双序列比对( Pairwise sequence Alignment ) 同源性【homology】 <==> 多序列比对 (Multiple Sequence Alignment) 旁系同源【paralogs】:同祖同种不同功 直系同源【orthologs】:同祖不同种同功 序列之间的相似性越高 => 序列为同源序列的可能性越高 但 同源序列不一定相似(趋异进化),相似序列不一定同源(趋同进化) 双序列比对: 全局比对 / 局部比对 局部比对:寻找最优匹配的 子序列 最佳比对查找方法:动态规划算法(Dynamic programming) Needleman-Wunsch Algorithm(for Global Alignment ) Smith-Waterman Algorithm(for Local Alignment) 常用工具: BLAST FASTA BLAST: Blastn:核酸检索核酸库 Blastp:蛋白质检索蛋白质库 Blastx:核酸(先翻译6ORFs)检索蛋白质库 tblastn:蛋白质检索核酸库(先翻译) tblastx:核酸(先翻译)检索核酸库(先翻译) PSI-BLAST