read depth/seq depth/coverage

depth&coverage

测序深度

测序碱基总量

单端测序
=reads长度 * reads个数
双端测序
=单端reads长度 * 单端reads个数 * 2

通常测序数据量的单位都是用“G"表示，例如1G表示10亿个碱基。
此外，测序数据量还有另外一种表示方式，即cluster。一个cluster表示一个DNA片段（对于RNA-seq，则表示一个片段化后的RNA分子）。某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术，每个cluster从两端都测一次，每次测150bp, 所以就会得到30M2=60M的reads数，然后reads数乘以每条read的长度就是最后的测序数据量（碱基数），即为60M150=9G的碱基数。

测序深度计算

测序深度（Sequencing Depth/depth of coverage）是指：测序得到的碱基总量（bp）与基因组（转录组或测序目标区域大小）的比值，是评价测序量的指标之一。衡量基因组中每个碱基被测序到的平均次数。

通常表示为1X、2X、3X、...(1、2或3倍覆盖)。

有效平均测序深度（mapped depth）：比对上基因组的数据/去N区后的基因组大小。

seq depth =  LN/G
L：读段长度
N：读段数目
G：测序目标区域大小

覆盖度

覆盖度（genome coverage/breadth of coverage）是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖所有的区域，这部分未覆盖的区域就称为Gap。coverage可以理解为基因组上至少被检测到1次的区域占整个基因组的比例。

示例

对于全基因组
Depth = (6 * 28nt) / 112nt = 1.2 fold
Coverage = (46nt - 5nt) / 112nt = 36.6%

对于target区域
Depth = (6 * 28nt) / 46nt = 3.7 fold
Coverage = (46nt - 5nt) / 46nt = 89.1%

对于position
Depth = 6 fold

测序深度的理论计算

如何估算测序数据量

期望是基因组上每个碱基至少被测序到3次（对SNP检测来说，一个位点至少要大于3次，才被认为有效）的概率大于0.99。

假设基因组大小为G, 假定每次测序可从基因组任何位置上随机检测一个碱基。那么对于基因组上某一个固定碱基位置，在一次测序（每测一个碱基为一次测序）中，该位置被命中的概率为P （P=1/G）。由于基因组 DNA 长度长，在一次测序中，每个碱基被检测到的概率很小。而测序量增大时每个碱基被检测到的次数会显著增加。当某事件出现的概率很小，而试验次数N很大时，该事件符合泊松分布。泊松分布的概率由参数λ所确定。在实际应用中，利用样本数据计算出平均值并用它来估计 λ。把x看作特定碱基被测到的次数，λ看作基因组的测序深度。在测序深度为10的情况下，一个碱基至少被测到一次的概率为1-P(0) ≈1。一个碱基至少被测到3次的概率为 1-P( 0)－P( 1) - P( 2) = 0.99。

碱基的覆盖深度符合泊松分布，某个碱基没有被测序到的概率为P(X=0) = e-c ，这相当于整个基因组的未覆盖率，而基因组的覆盖率则为1- e-c

在保证shotgun打断完全随机的理想情况下，碱基的覆盖深度完全符合泊松分布图，在10X的时候，基因组覆盖率即可达到100%。在实际实验操作中，打断不可能完全随机，打断的随机性根据样品情况，打断片段大小而改变。打断片段越大，其随机性也越差。环化大片段文库的随机性要低于小片段文库。

人基因组仍然存在很多Gap和N区域，究其原因在于存在很多高GC和高度重复序列。由于这些区域的存在，全基因组重测序的随机性会与理论会有一定的偏差，且在测序过程中某些序列测不出来，基因组覆盖度只能接近却达不到100%。

测序深度选择

测序深度

对于全基因组测序（WGS）来说，人类全基因组大约3G，健康人一般需要测到30X，即获得90G有效数据；要可靠地检测基因组中的SNP和 INDEL，至少需要测到35X，产生105G的有效测序数据 [1]

人类基因中大约有180,000个外显子，占人类基因组的1%，约30MB。对于全外显子测序（WES）来说，由于目标区域的异质性增加，以及探针50%的捕获效率，需要更大的平均读取深度才能获得与WGS相同的覆盖范围，覆盖89.6-96.8％的目标碱基，需要测到80X [1]。

ENCODE2曾利用H1人胚胎干细胞做过评估，若研究对象是RPKM>10的基因，每个样本测到36 M reads就可以准确定量80％的基因表达。然而，对于低表达水平的基因（FPKM<10），要测到80 M reads才能准确定量。所以，如果需要在整个转录组准确定量所有基因（包括lncRNA基因），那么样本需要测到80M以上；如果只是研究表达量高的转录本的整体表达变化，那么每个样品36 M reads就足够了。

如果关注基因表达差异的分析，可以考虑适当牺牲样品的测序深度，增加样品数目，尽管这会导致每个RNA的测序精度减低。少量样本的深度测序虽然能检测到低水平表达的转录本表达差异，但是只有这种差异可重复时才能讨论其生物学意义，否则只能是假阳性结果。

[1] Sequencing depth and coverage: key considerations in genomic analyses

最后编辑于：2023.12.01 16:31:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335

read depth/seq depth/coverage

测序深度

测序碱基总量

测序深度计算

覆盖度

测序深度的理论计算

测序深度选择

推荐阅读更多精彩内容