昨天的介绍基因数据库的时候,[数据库推荐]gene:基因相关信息查询提到了一个 GeneRIFs 这个数据。利用这个信息我们可以了解这个基因目前研究的功能,反过来通过这个也可以知道与某一个关键词有关的哪些基因研究有哪些。基于这个原理,就有了Geneshot(https://amp.pharm.mssm.edu/geneshot/index.html )数据库。
数据库原理
-
基因发表的频率 :数据库分析基因和文章发表的关系是基于ncbi当中的 GeneRIF或者AutoRIF
数据库的。 GeneRIF 数据库及基于发表的文章来总结的与基因有关的信息。AutoRIF
数据库是作者自己基于GeneRIF
总结的数据。其中的数据量要比GeneRIF
数据量要大。所以结果可能也更加的准确一些。但是呢,这个也要看数据库更不更新。如果数据库不更新的话,可能以后还是原始的GeneRIF
好一些。 -
基因和其他基因的共表达关系 。这个数据库通过五个个数据库来分析基因之间的相似性。其中包括刚才介绍的 GeneRIF
和AutoRIF
。其他的三个分别是Enrichr
富集分析数据库。Tagger
文献发表的在摘要当中的共存数据库。ARCHS4
RNA-seq共表达数据库。
-
PubMed Query :通过检索某一个关键词,得到和这个关键词。 -
Gene Function Prediction :输入基因名,通过基于通路数据库和共表达数据库对目标基因进行功能预测。 -
Gene Set Augmentation :输入一系列的基因名,评估基因的研究程度以及相互作用。
PubMed Query: 关键词检索
GeneRIF
和
AutoRIF
。
-
与目标关键词有关的基因汇总。
gastric cancer
进行检索。得到下面的这个散点图。其中
PGC
这个基因。X轴是25代表,找到和胃癌相关的文献有25篇,这25篇文献占总的和PGC有关文献总数的58%。说明和PGC有关的文献有58%是和胃癌有关的。点击相关基因,我们可以在旁边看到每一年这个基因发表文章的数量。通过散点图我们就可以知道哪些基因是特异性在胃癌当中研究的。那这些基因可能就是胃癌的特异性基因。
-
预测和检索关键词有关的其他基因 。这个预测的原理也是基于上面检索得到的关键词相关基因,我们需要选择多少个相关基因进行预测。然后通过共表达数据库等来预测其他基因和这些相关基因的整体相关性。进而综合的评价哪个基因更加相关。 最后 我们可以把鼠标悬停到得分上,就知道这个基因具体和哪个基因相关了。
本文分享自微信公众号 - 医学数据库百科(yxkygjx)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/4592422/blog/4435600