测序:
如何计算测序深度,或产出的数据量?
10的9次方=1G
如果测序的read是pair-end的、且每条read长150bp,则,平均测序深度为=(reads数×150bp×2)/(3*10的10次方)。
即:测序得到的碱基总数/人类基因组的碱基对数=平均测序深度。
比如,我想得到30x的测序数据,那么需要的数据量是90G的数据。(此处,还不甚了解,我觉得应该是900G的数据啊)
(人类基因组有30亿个碱基对(3*10的10次方))
测序错误率:一般选择的阀值是10的-3次方,即测序错误率是0.001。(PCR的错误率是10的-6次方)
coverage与depth的概念:coverage指的是测序数据覆盖的人类基因组的碱基数。depth指的是平均每个碱基被测序read覆盖的次数(即被测到的次数)。
index的含义:index用来区分不同的样本。单端index共6个碱基,排列组合,共4的6次方个碱基,无法区分66个样本。故,需要采用双端index。
双端index,分为i5和i7端。i5端有8个碱基,i7端有12个碱基。
测序的cycle:一个cycle读取一个碱基。也称为:base call。若有index序列,则测序仪会多读几个cycle。
文库构建:
加Y型adapter的目的:1)区分read1和read2,即DNA链的两端;2)防止adapter自连。
Y型adapter不是互补的,两端的序列不一致。
10ng的DNA就可以建库,测序。
WGS:
全基因组的重复率是20%,用picard统计duplicate的工具(原理:map位置相同,cigar值相同)。
建库流程:提取全基因组,打断、末端不平加A,加adapter,PCR扩增,测序。
区别cfDNA的靶向建库:cfDNA已经是断裂的片段,所以不需要打断、末端补平加A的步骤,只要提取游离DNA后,用引物扩增即可。
target sequencing:
只对特定区域的进行测序。对cfDNA测序时,不需要打断、末端加A的处理。因为cfDNA已经是片段化的了。
测序仪:
一个flowcell可以看做是一个板(看做一个房间)。一个flowcell上有8条lane(像管子一样),一条lane可产生60G的数据(1条lane测多少数据是固定的)。每条lane上有很多个tile,每个tile都有(x,y)坐标位置,即read长簇的位置。
Xten测序仪只能测单端index,无法测双端index。
边合成边测序。dnTP。参照下面的两张图:
来源:https://www.cnblogs.com/zypiner/p/12578991.html