read depth/seq depth/coverage

depth&coverage

测序深度

测序碱基总量

  1. 单端测序
    =reads长度 * reads个数
  2. 双端测序
    =单端reads长度 * 单端reads个数 * 2

通常测序数据量的单位都是用“G"表示,例如1G表示10亿个碱基。
此外,测序数据量还有另外一种表示方式,即cluster。一个cluster表示一个DNA片段(对于RNA-seq,则表示一个片段化后的RNA分子)。某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术,每个cluster从两端都测一次,每次测150bp, 所以就会得到30M2=60M的reads数,然后reads数乘以每条read的长度就是最后的测序数据量(碱基数),即为60M150=9G的碱基数。

测序深度计算

测序深度(Sequencing Depth/depth of coverage)是指:测序得到的碱基总量(bp)与基因组(转录组或测序目标区域大小)的比值,是评价测序量的指标之一。衡量基因组中每个碱基被测序到的平均次数。

通常表示为1X、2X、3X、...(1、2或3倍覆盖)。

有效平均测序深度(mapped depth):比对上基因组的数据/去N区后的基因组大小。

seq depth =  LN/G
L:读段长度
N:读段数目
G:测序目标区域大小

覆盖度

覆盖度(genome coverage/breadth of coverage)是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖所有的区域,这部分未覆盖的区域就称为Gap。coverage可以理解为基因组上至少被检测到1次的区域占整个基因组的比例。

示例

对于全基因组
Depth = (6 * 28nt) / 112nt = 1.2 fold
Coverage = (46nt - 5nt) / 112nt = 36.6%

对于target区域
Depth = (6 * 28nt) / 46nt = 3.7 fold
Coverage = (46nt - 5nt) / 46nt = 89.1%

对于position
Depth = 6 fold

测序深度的理论计算

如何估算测序数据量

期望是基因组上每个碱基至少被测序到3次(对SNP检测来说,一个位点至少要大于3次,才被认为有效)的概率大于0.99。

假设基因组大小为G, 假定每次测序可从基因组任何位置上随机检测一个碱基。那么对于基因组上某一个固定碱基位置,在一次测序(每测一个碱基为一次测序)中,该位置被命中的概率为P (P=1/G)。由于基因组 DNA 长度长,在一次测序中,每个碱基被检测到的概率很小。而测序量增大时每个碱基被检测到的次数会显著增加。当某事件出现的概率很小,而试验次数N很大时,该事件符合泊松分布。泊松分布的概率由参数λ所确定。在实际应用中, 利用样本数据计算出平均值并用它来估计 λ。把x看作特定碱基被测到的次数,λ看作基因组的测序深度。在测序深度为10的情况下,一个碱基至少被测到一次的概率为1-P(0) ≈1。一个碱基至少被测到3次的概率为 1-P( 0)-P( 1) - P( 2) = 0.99。

碱基的覆盖深度符合泊松分布,某个碱基没有被测序到的概率为P(X=0) = e-c ,这相当于整个基因组的未覆盖率,而基因组的覆盖率则为1- e-c

在保证shotgun打断完全随机的理想情况下,碱基的覆盖深度完全符合泊松分布图,在10X的时候,基因组覆盖率即可达到100%。在实际实验操作中,打断不可能完全随机,打断的随机性根据样品情况,打断片段大小而改变。打断片段越大,其随机性也越差。环化大片段文库的随机性要低于小片段文库。

人基因组仍然存在很多Gap和N区域,究其原因在于存在很多高GC和高度重复序列。由于这些区域的存在,全基因组重测序的随机性会与理论会有一定的偏差,且在测序过程中某些序列测不出来,基因组覆盖度只能接近却达不到100%。

测序深度选择

测序深度

对于全基因组测序(WGS)来说,人类全基因组大约3G,健康人一般需要测到30X,即获得90G有效数据;要可靠地检测基因组中的SNP和 INDEL,至少需要测到35X,产生105G的有效测序数据 [1]

人类基因中大约有180,000个外显子,占人类基因组的1%,约30MB。对于全外显子测序(WES)来说,由于目标区域的异质性增加,以及探针50%的捕获效率,需要更大的平均读取深度才能获得与WGS相同的覆盖范围,覆盖89.6-96.8%的目标碱基,需要测到80X [1]。

ENCODE2曾利用H1人胚胎干细胞做过评估,若研究对象是RPKM>10的基因,每个样本测到36 M reads就可以准确定量80%的基因表达。然而,对于低表达水平的基因(FPKM<10),要测到80 M reads才能准确定量。所以,如果需要在整个转录组准确定量所有基因(包括lncRNA基因),那么样本需要测到80M以上;如果只是研究表达量高的转录本的整体表达变化,那么每个样品36 M reads就足够了。

如果关注基因表达差异的分析,可以考虑适当牺牲样品的测序深度,增加样品数目,尽管这会导致每个RNA的测序精度减低。少量样本的深度测序虽然能检测到低水平表达的转录本表达差异,但是只有这种差异可重复时才能讨论其生物学意义,否则只能是假阳性结果。

[1] Sequencing depth and coverage: key considerations in genomic analyses

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容