生物信息学-序列拼接方法
物理学方法
Fractal Dimension of Exon and Intron Sequences
--------------CGCGGCGTGTGTTATA --------------
数学方法:Relative Complexity in Exon, Intron and Flanks
序列复杂度依据不同组合出现的次数,windows变大之后发现coding比non-coding复杂度变多。
COINCIDENT INDEX OF EXON AND INTRON
密码学方法使用重合指数,指数高留下,指数低删去,发现效果很好:
多序列比较是多个序列一同比较
多种方法综合使用:
Challenge:
重复序列:
串联重复AGCAGCAGCAGCAGCAGCAGCAGC
散置重复AGCAGCAAAGGCCCTTAAAGCGGGGGGGAGGCGCGCAGCGCGAGC
重复在UNICQ marker中,剪切有marker的片段,就避免了重复的复杂性。
方向代表在模板链还是互补链上
Eg:脂肪酸网络填充,将细菌的全基因组得到,然后比对合成蛋白在脂肪酸网络上是否存在,如果有通路能够打通,则即可知该细菌能实现合成何种脂肪酸的功能。
高度重复序列在耐热菌内广泛存在:
生成蛋白的核酸GC含量与耐热相关高,所以推测这些蛋白与耐热性有关。CG含量反应活性,CG含量高则突变率高,比较活跃。蛋白质制作机器在高温下耐热。