文章梳理:文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part I:文章梳理)
原文链接:
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411
概述
GAM 的直接测量量的是基因组上任意两个位点出现在同一切片(co-segregation)的频率。
作者指出,GAM数据与Hi-C等数据不同的地方在于,GAM数据本身就同时包含了“信号”和“背景”。即GAM不仅测量interacting locus pair 的 co-segragation频率,同时也测量了 non-interacting locus pair的频率。因此,可以通过单纯的统计学检验从随机背景中识别出significant interactions。为此,作者开发了SLICE模型,目的是给出当基因组上有两个位点以(正文中的)的频率互作时,在同一个切片中能同是观察到两位点的概率所服从的分布以及期望。
模型推导
假设共有个细胞核,每个细胞在被激光随机切割,产生一个厚度为切片,测序后得到对应的一个 nuclear profile()。
(作者在之后的模型中使用切片厚度 , 总细胞核数 )
Part I: 单位点模型
定义
考虑基因组的任意一个位点
假设在一个切片中
- 包含(或 )的概率为====
- 不包含(或 )的概率为====
显然有,
注意:在切片中包含不代表的在最终的中能检测到A,因为还有DNA检出效率的问题。这部分作者会在之后考虑。
推导
如果该位点在细胞核中的位置是随机分布的。
当假设位点是一个没有体积的质点时,在切片中的概率为
其中
- 是细胞核的平均体积,假设所有检测的细胞核都是一个半径为的球体,则
- 其中是切片的平均体积,可首先计算出切片距离细胞核中心为时的切片体积,然后沿进行平均。
综上可解得
但事实上,一定长度的DNA在空间中占有一定体积。
假设长度为 的一段DNA在空间中的占位是一个半径为的球。则当 时,可以使用 替代原公式中的
以上的 改写为
最终得到
Part II:两位点模型
定义:
设两位点间互作的概率为
- 当 在某个细胞中发生互作时,取来自该细胞的切片,设该切片 中
- 同时包含的概率为
- 仅包含(或) 的概率为
- 既不包含也不包含 的概率为
- 当 在某个细胞中未发生互作时,取来自该细胞的切片,设该切片中
- 同时包含的概率为
- 仅包含(或) 的概率为
- 既不包含也不包含 的概率为
显然有
推导:
根据全概率公式,在任意一个切片中,
- 同时包含 的概率
- 仅包含(或 )的概率
- 既不包含也不包含 的概率为
容易推得
Part III:模型修正(I),二倍体生物情况
设个细胞核的切片中,包含个,个 的细胞核个数为:。
对于二倍体生物,能检测到的参考基因组上的位点 实际上对应同源染色体上的一对等位位点,检测的 对应同源染色体上的一对等位位点,因此,即
假设:
- 与同一染色体的两位点互作的概率相比,位于不同染色体上的位点间的互作概率可以忽略不计。即考虑发生在 和的间的互作
- 发生在 的互作与发生在间的互作是相互独立的
综上可推出
Part IV:修正(II)检出效率
在实际的实验中,并不是一个切片中的所有DNA都能被检出(都能出现在中)
假设检出效率为 ,此时在一个中检测到个, 个的概率为
则
以上可简写为
其中是Kronecker indicator-function,即时,否则
Part V 最终模型
记在 中同时检测到,仅检测到(或 ), 没有检测到 的概率依次为:
则
consegregation ratio
参数估计
Detection rate
从数据中计算得到,根据 计算公式,反解得到
interacting pairs co-segregation
认为当两位点互作时的间距 时,
non-interacting pairs co-segeregation
将所有locus pair按所在染色体及在染色体上的距离进行分组
将 代入公式计算得到co-segregation ratio的期望值 ,并与每组的检测值进行拟合
解得位于第条染色体上距离为 的locus pair所对应的
interaction probability
当 均为已知时, 是关于 的函数