dna

转录调控 | Transcriptional Regulation | Regulon

自闭症网瘾萝莉.ら 提交于 2019-12-18 10:07:18
scRNA-seq做完该做的QC、normalization、imputation、clustering、trajectory和integration,就会开始做转录调控的分析了。 核心就是围绕着TF转录因子做文章 预测TF的靶基因 鉴定regulon 大部分都是高通量的预测,准确性有待论证,需要很好的实验验证设计。 预测的工具不要太多: MARINa — Andrea Califano - paper SCENIC 什么是regulon ? 这是一个高通量测序后发明的词,其实就是被同一个调控元件(常见的就是TF)调控的一群基因的集合。 In molecular genetics, a regulon is a group of genes that are regulated as a unit, generally controlled by the same regulatory gene that expresses a protein acting as a repressor or activator. 我们可以从转录调控中看到造物主的影子。 看似简单,就一个中心法则,其实非常复杂,有很多细节。 Transcriptional Regulation and Its Misregulation in Disease 这篇综述必读,但凡是做转录调控的。 基本问题:

目前的计算机还没有实现真正的智能

本小妞迷上赌 提交于 2019-12-15 11:19:48
首先有几个问题。 人工智能成为专门的学科诞生以来,经历了几次起落,在人们的期望和失望中摆动。即便目前在计算机、机器人中取得了许多成就,也还是显得不尽人意。业内很多人都能感觉到目前的人工智能离人类大脑的智能仍有较大差距,高等智能的提出就有这方面的因素。但究竟如何才能让人工智能更进一步走向人脑智能?还有,之前我们对智能的研究缺失了什么以至于计算机实现的智能与人脑的智能之间存在越不过去的坎? 对智能的研究一直都以人类大脑的智能为范本。但大脑及神经系统只是生物演化中形成一种信息系统而已,还有没有其他种类的信息系统可以作为研究对象?如果有,在这些信息系统会有哪些异同? 目前人们对于智能的定义有很多种说法,会思考、有意识、理智、智慧、像人那样行动等等,都归属于描述性表述。会不会有一种更简单的,更直观的,触及到本质的定义呢? 下面阐述一下体系论中关于信息系统和智能的观点。 在体系论中,细胞为一级生物体系,动物、植物、真菌为二级生物体系,人类社会为第三级生物体系。其中第一级和第二级是紧致实体,即通常人们所说的细胞(体)、动物(体)、植物(体);第三级生物体系是离散型生物体系,非紧致实体。一级生物体系 细胞作为基本单元组成了二级生物体系,二级生物体系中的人作为基本单元组成了第三级生物体系。 一级生物体系的信息系统以DNA为主,二级生物体系的信息系统为神经系统,其中以大脑为主

WGA(全基因组扩增)技术

岁酱吖の 提交于 2019-12-12 20:38:08
作为一种增加有限DNA量的方法,全基因组扩增技术于1992年出现,该方法特别适于法医学鉴定和遗传疾病的研究,以及如二代测序技术和CGH阵列(比较基因组杂交)等新技术应用,后者的主要难题就在于DNA样本数量有限,但分析需求量又很可观。目前业界已经开发出多种WGA技术,它们之间的实验方案和复制准确度有所不同。 业界已经开发出多种WGA技术;不过这些技术在其扩增准确性和易用性等方面有所区别。多重置换扩增(MDA)的WGA技术,能够提供无偏差的准确全基因组扩增 基于PCR的WGA技术 : 基于PCR的WGA技术主要有两种: 简并寡核苷酸PCR (DOP-PCR)技术(1) 和 扩增前引物延伸 (PEP)技术(2)。 这两种技术之间的主要区别在于PEP技术使用 随机引物和低PCR退火温度 ,而DOP-PCR技术则使用 半简并寡核苷酸 (例如CGACTCGAGNNNNNNATGTGG)和 更高的退火温度 。 两种方法中都使用了 Taq DNA聚合酶 ,使得扩增长度限制在3 kb(平均片段长度为400–500 kb)以内,并且会在扩增序列中引入一些错误。 不仅如此,有研究发现这些技术的基因组覆盖度不够完整,并会在 扩增中产生偏向性 ——由于引物优先结合某些特定区域,造成DNA扩增产物中的一些序列相对增多。 多重置换扩增的WGA技术 多重置换扩增(MDA)的恒温基因组扩增技术,该技术包含了

DNA Sequence POJ - 2778 AC自动机 && 矩阵快速幂

你离开我真会死。 提交于 2019-12-12 18:36:03
It's well known that DNA Sequence is a sequence only contains A, C, T and G, and it's very useful to analyze a segment of DNA Sequence,For example, if a animal's DNA sequence contains segment ATC then it may mean that the animal may have a genetic disease. Until now scientists have found several those segments, the problem is how many kinds of DNA sequences of a species don't contain those segments. Suppose that DNA sequences of a species is a sequence that consist of A, C, T and G,and the length of sequences is a given integer n. Input First line contains two integer m (0 <= m <= 10), n (1 <=

DNA

大兔子大兔子 提交于 2019-12-07 15:51:49
问题 1115: DNA 时间限制: 1Sec 内存限制: 128MB 提交: 4158 解决: 1397 ​ 题目描述 ​ 小强从小就喜欢生命科学,他总是好奇花草鸟兽从哪里来的。终于, 小强上中学了,接触到了神圣的名词--DNA.它有一个双螺旋的结构。这让一根筋的小强抓破头皮,“要是能画出来就好了” 小强喊道。现在就请你帮助他吧 输入 ​ 输入包含多组测试数据。第一个整数N(N<=15),N表示组数,每组数据包含两个整数a,b。a表示一个单位的DNA串的行数,a为奇数且 3<=a<=39。b表示重复度(1<=b<=20)。 输出 ​ 输出DNA的形状,每组输出间有一空行。 样例输入 2 3 1 5 4 样例输出 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 提示 无 代码 #include<iostream> #include<cstdio> #include<algorithm> #include<cstring> #include<cmath> using namespace std; char s[45][45]; int main() { int t; cin>>t; int a,b; while(t--) { cin>>a>>b; for(int i=0; i<45; i++)

leetcode187. 重复的DNA序列

醉酒当歌 提交于 2019-12-05 07:43:26
所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。 编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列(子串)。 示例: 输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出:["AAAAACCCCC", "CCCCCAAAAA"] 来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/repeated-dna-sequences 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。 解答: 对于这道题,看到10个字符的字串,感觉就特别像是滑动窗口的题目,用10为窗口,然后向右滑动,又需要记录字串出现的次数,所以再用一个map记录保存个数,遍历完成以后,再遍历一遍map得到所有字串的出现次数就得到结果。 1 class Solution { 2 public List<String> findRepeatedDnaSequences(String s) { 3 List<String> res=new ArrayList<>(); 4 if(s==null||s.length()<=10) 5 return res; 6 HashMap

分子生物学基础知识

♀尐吖头ヾ 提交于 2019-12-04 10:35:57
基因数量远小于蛋白质数量 (1) 基因重排 ,在某些细胞中,可将一个基因从远离启动子的地方移到距它很近的位点从而启动转录,如抗体的合成(这里还涉及到抗体的结构); (2) 可变剪接 ,特异性保留内含子或缺失外显子的部分或全部,是基因转录后调控的重要方式; (3) 蛋白质多亚基 是这个问题的核心,以P型离子泵为例,在钠钾泵中,α亚基是主要的活性中心,而β亚基则是负责帮助α亚基折叠,本身无转运活性,多种P型离子泵的β亚基是共用的。也就是说,多数蛋白质是有多个亚基组合而成的,每一个位置都有好几种亚基,亚基之间的组合形成了多种蛋白质。 此外,在原核生物中,一个基因还可以编码多条肽链,这会更加丰富蛋白质的多样性。 基因、染色体、蛋白质、DNA,RNA 之间的关系 真核生物的染色体由DNA:组蛋白:非组蛋白:RNA=1:1:1:0.05组成, DNA序列及其甲基化位点 组成了细胞中最重要的遗传信息实体, 组蛋白 的作用在于帮助DNA形成特定结构、稳定DNA,同时 围绕着组蛋白的30多种修饰在基因表达的调控中起到重要作用 。 非组蛋白 主要指各种与 核苷酸和dNTP合成、复制、转录 相关的蛋白质,包括各种酶与蛋白质因子。 来源: https://my.oschina.net/u/3732258/blog/3129509

Mutation|DNM|

荒凉一梦 提交于 2019-12-03 14:43:12
生命组学 DNA 序列改变的分子基础 变异来源 据研究对象,可分为两类 mutation :个体上的变异和群体上的变异,群体上的变异是关联研究, eg 喝酒人群 vs 非喝酒人群相比。 造成 mutation 的三类机制: 1.DNA 复制: DNA 复制酶错误 DNA 复制 instrinsic polymerase errors Activities of error-prone polymerase: 修复时跳过损伤 2.DNA 损伤 Endogenously induced DNA damages 。 Endogenously induced damages: 植物比动物暴露在紫外线中时间更长,所以对于紫外线损伤十分强。 3.Repair mechanism : Global repair: 从复制起点开始修复。 Recombination : eg : Cluster 中掉入 gene 会被破坏 TCR repair : Translesion 是修复时跳过损伤 不同损伤类型: Base excision repair| mismatch|nucleotide excision repair DNA 损伤与修复之间的关系是损伤之后的行为: stop 复制 | 不再复制 | 改变 transport|repair 。 不同损伤可导致不同修复:原因 -- 损伤 -- 修复

leetcode-2-重复的DNA序列

雨燕双飞 提交于 2019-12-03 11:58:51
所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。 编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列(子串)。 示例: 输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出:["AAAAACCCCC", "CCCCCAAAAA"] 来源:力扣(LeetCode) 链接: https://leetcode-cn.com/problems/repeated-dna-sequences 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。 我这里用的是list,其实用set性能更好,list进行查询是O(logn),而set是O(1)的。 public List<String> findRepeatedDnaSequences(String s) { int len = s.length(); List<String> res = new ArrayList<String>(); if (len <= 10) return res; Map<String, Integer> all = new HashMap<String, Integer>(); for (int i = 0; i <=

Showing an image with pylab.imshow()

匿名 (未验证) 提交于 2019-12-03 01:06:02
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 由 翻译 强力驱动 问题: I'm relatively new to all this and I started to do the tutorial on image analysis here: http://www.pythonvision.org/basic-tutorial I have installed all the modules but I didn't get very far before hitting a snag. when trying to perform the pylab.imshow(dna) step it returns the following error: In [10]: pylab.imshow(dna) --------------------------------------------------------------------------- TypeError Traceback (most recent call last) in () ----> 1 pylab.imshow(dna) /usr/lib/pymodules/python2.7/matplotlib/pyplot.pyc in imshow(X,