长非编码RNA,英文名为long noncoding RNAs,缩写为lncRNA,是指长度大于200 核苷酸的非编码RNA。LncRNA因具有非常重要的调控功能,且几乎参与到了各种生物学过程和通路,与各种疾病的发生发展紧密关联,从而成为过去几年和将来的研究热点和重点。对于人类基因组来说,产生的lncRNA数量比编码RNA的数量要多得多,目前除了少数lncRNA的功能比较明确外,大部分lncRNA的功能都还未知。非常值得去深入研究。
<更多精彩,可关注微信公众号:AIPuFuBio,和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>
根据基因组上的位置关系,lncRNA主要可以分为以下三大类(如下图所示):
1、Intronic lncRNA,内含子lncRNA:主要产生于编码基因的内含子区域;
2、Intergenic lncRNA,基因间区的lncRNA,也称作lincRNA:主要产生于两个编码基因的中间区域;
3、Antisense lncRNA,反义lncRNA:主要产生于编码基因的反义链;
具体如下图所示:
当然lncRNA根据产生的基因组位置还可进一步细分为下面的类型:
目前已知的lncRNA功能众多,主要可以分为以下几类(如下图所示):
1、转录干扰;
2、诱导染色质重构和核小体修饰;
3、调控可变剪接模式;
4、产生内源siRNAs;
5、调控蛋白质的活性;
6、结构或组织功能;
7、改变蛋白质的定位;
8、小RNA的前体等。
具体如下图所示:
至今为止,已经发现了很多与发育或疾病特别是癌症发生发展紧密相关的lncRNA。下表给出了一些具体示例:
此外,很多研究还发现lncRNA在各类组织中的表达比编码RNA(mRNA)更具有组织特异性,说明lncRNA与组织的功能特异性密切相关,具体如下图所示:
那么具体如何来鉴定和判断一条RNA是否为lncRNA呢?
目前,鉴定lncRNA的方法主要可以分为以下两大类:
1、基于RNA-seq测序数据的自动注释策略;
又可细分为两种方法:
i)Genome-guided的方法;
主要是先把RNA-seq数据匹配到参考基因组上,然后进行组装得到转录本序列(如Cufflinks、Stringtie等软件),接着再用相应的软件(如CPAT,CPC等)判断转录本的编码性与否。主要适用于有参考基因组的物种。
ii) De novo assembly的方法;
先通过从头组装/拼接的方法获得转录本的序列(如Trinity软件),然后再用相应的软件判(如CPAT,CPC等)断转录本的编码性与否。主要适用于无参考基因组的物种。
2、人工注释;
人工注释涉及到利用各种类型的数据来综合注释鉴定lncRNA,包括用EST、cDNA等数据来确定转录本的主要结构,并用RNA-seq数据来判断内含子区域,然后用CAGE tags来确定转录本的5'端,Poly (A)测序来定位转录本的3'端。最后再用一些列的数据和方法来确定RNA的编码性,如序列进化特征判断的PhyloCSF方法、蛋白质谱数据、Ribosome Profiling等。
具体如下图所示:
现在已经有多个不同数据注释了众多的lncRNA,但不同数据库注释的lncRNA完整性和覆盖度不大一样,具体如下表所示:
<更多精彩,可关注微信公众号:AIPuFuBio,和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>
参考文献:
1、Rinn et al. Genome Regulation by Long Noncoding RNAs, Annu Rev Biochem, 2013
2、Wilusz et al. Long noncoding RNAs: functional surprises from the RNA world,Genes & Development, 2009
3、Ransohoff et al. The functions and unique features of long intergenic non-coding RNA,NATURE REVIEWS | MOLECULAR CELL BIOLOGY, 2018
4、Uszczynska-Ratajczak et al. Towards a complete map of the human long non-coding RNA transcriptome, Nature Review Genetics, 2018