http://www.nxn.se/valent/2017/11/16/droplet-scrna-seq-is-not-zero-inflated
随着scRNA-seq(单细胞RNA测序)开始流行,用户对基因表达中意外出现的零值(zero inflated)表示担忧。也就是说,对于任何给定的基因,许多细胞都没有检测到这种表达,即使它在其他细胞中相对较高。
目前尚不清楚这一点最初是什么时候提出的,但它被称为“dropout”问题。在Google Scholar上搜索,将得到数百篇讨论scRNA-seq中“dropout”问题的paper,还有几篇论文明确提出了调查和处理“dropout”问题的方法。典型的方法是将零归为正值,或者说明包含zero-inflation成分的模型。在数据中观察到的这些零(“缺失”)zeros ("dropouts") 通常被解释为分子反应的低效性nefficiencies of molecular reactions,因为单个细胞中的mRNA体积非常小。
在高通量的scRNA序列分析中,细胞被分离成(反向)液滴(reverse) droplets,在液滴中发生若干分子反应,最终从每个细胞的表达基因中产生标记cDNA。
使这成为可能的部分原因是将测序片段限制为每个转录本3‘或5’端的单个标签。 最近在统计分析中观察到,在没有额外的零膨胀的情况下,更好地解释了scRNA-seq数据的RNA标签计数版本。(没懂)
然而,从 droplet based scRNA-seq分析人员那里常常听到抱怨,因为既昂贵又缺失了部分基因RNA数据,通量较低。
这些观察到的 zero-inflation 与计数统计数据一致,并且由于 technical artifacts ,droplet scRNA-seq 产生的“缺失”数量并没有比想象的高。
将RNA溶液均匀地分散在液滴中,以确保完全没有biological variation。 一种是使用inDrop (Klein et al) 进行的,一种是使用10X Genomics GemCode (Zheng et al), 进行的,另一种是10X Genomics Chromium (Svensson et al) 进行的。所有数据集都具有大约1,000个带有RNA的液滴,便于准确估算 例如每个基因的均值或方差。
已经观察到,来自这些技术的表达计数遵循负二项式分布,其中存在 quadratic mean-variance relationship。
在负二项式数据中,在给定平均值μ和phi的情况下,观察到k个计数的概率为,
所以k = 0的时,随着single cell数量的增多,这些零(“缺失”)zeros ("dropouts")的概率曲线如下图