【scRW】[1] Introduction to scRNA-seq

这个专题叫Schedule for Single-cell RNA-seq workshop，姑且就把这个专题叫做【scRW】

第一课 Introduction to scRNA-seq

资料来源

师姐推荐的哈佛的单细胞的课https://hbctraining.github.io/scRNA-seq/schedule/

单细胞文章学习
http://www.nxn.se/single-cell-studies

正文部分

1. Why single-cell RNA-seq

在人类组织中，细胞类型、状态和相互作用的多样性令人难以置信。为了更好地了解这些组织和现有的细胞类型，单细胞RNA-seq（scRNA-seq）提供了在单个细胞水平上表达基因类型的视角。

Image credit: courtesy of Dr. Ayshwarya Subramanian

这种exciting and cutting-edge的方法可用于：

探索组织中存在哪些细胞类型
识别未知/罕见的细胞类型或状态
阐明在分化过程中或跨时间或跨状态的基因表达变化
识别条件之间在特定细胞类型中差异表达的基因（例如。治疗或疾病）
探索细胞类型间表达的变化，同时结合空间、调节和/或蛋白质信息

单细胞数据的用途包括：

用途

右一是揭示 stochastic gene expression 基因表达的表达模式

2. Challenges of scRNA-seq analysis

在进行scRNA-seq之前，转录组分析是使用高通量RNA-seq进行的，这是一种比较 averages of cellular expression 的直接方法。如果要寻找disease biomarkers，或者是实验项目根本不期望或不关心样本中的多种细胞异质性的背景，高通量RNA-seq这可能是一种最好的研究方法。

2015 (doi: https://dx.doi.org/10.1101/gr.190595.115)

尽管scRNA-seq能够 capture expression at the cellular level，但样本生成和文库制备成本更高，分析也更复杂，更难解释。scRNA序列数据分析的复杂性包括：

大量数据
每个细胞测序深度低(解释见 4.)
跨细胞样本的技术变异 /Technical variability across cells/samples
样本的生物变异性 /Biological variability across cells/samples

3.Large volume of data

来自scRNA序列实验的表达数据代表了成千上万个细胞的10或数十万次读取。数据输出要大得多，需要更多的内存来分析，更大的存储需求，以及更多的时间来运行分析。

4.Low depth of sequencing per cell

对于 droplet-based methods of scRNA-seq，测序的深度较浅，通常每个细胞只能检测到10-50%的转录组。这导致许多基因的细胞显示为零计数。然而，在一个特定的细胞中，一个基因的零计数可能意味着该基因没有被表达，或者只是没有检测到转录物。在细胞中，表达水平较高的基因往往具有较少的零。由于这一特性，许多基因在任何细胞中都不会被检测到，细胞间的基因表达也会有很大的差异。

Zero-inflated？scRNA序列数据通常被称为Zero-inflated；然而，最近的分析表明，考虑到序列深度，它包含的零并不没有预想的多Valentine Svensson的博客文章，中文。

5.Biological variability across cells/samples

biological variation 可能导致细胞之间的基因表达比实际生物细胞的类型/状态更相似/不同，这可能会使细胞类型的身份模糊。

biological variation来源包括：

Transcriptional bursting:
特定基因并非所有时间都在一直基因转录。Time of harvest将决定基因在每个细胞中是打开还是关闭。

Varying rates of RNA processing：
不同的RNA的处理速率不同。
连续或离散的细胞身份（例如每个T细胞的促炎潜能）：
连续表型是基因表达中定义明确的变量，有时很难将连续的和离散的分开。
环境刺激 Environmental stimuli:
细胞的局部环境会根据空间位置，信号分子等影响基因表达。
时间变化Temporal changes：
基本的细胞流动过程，例如细胞周期，会影响单个细胞的基因表达谱。

mage credit: Wagner, A, et al. Revealing the vectors of cellular identity with single-cell genomics, Nat Biotechnol. 2016 (doi:https://dx.doi.org/10.1038%2Fnbt.3711)

6.Technical variability across cells/samples

细胞处理方式可能会导致细胞之间的基因表达基于技术来源而不是生物细胞的类型/状态而更加相似/不同，而生物的细胞类型/状态会掩盖细胞的类型身份；

可能导致细胞基因表达变化的处理包括：

细胞特异性捕获效率/Cell-specific capture efficiency：
不同细胞捕获的转录物数量不同，导致测序深度不同（例如，转录组的10-50％）；
文库质量/Library quality：
降解的RNA，低存活力/濒死细胞，大量自由漂浮的RNA，离解差的细胞以及对细胞的定量不准确会导致质量指标降低；
扩增偏差/Amplification bias：
在文库制备的扩增步骤中，并非所有转录本都扩增到相同水平。
批处理效应/Batch effects:
对于scRNA-Seq分析，批处理效应是一个重要问题，因为您可能会看到仅由于批处理效应导致表达差异很大。

Image credit: Hicks SC, et al., bioRxiv (2015)

为了探究不良的批处理研究设计所产生的问题，在本文中对其进行了很好的强调。

6.1 How to know whether you have batches批次效应?

是否在同一天进行了所有RNA分离？
是否在同一天进行了所有 library preparations 工作？
是否由同一个人对所有样品进行RNA分离/文库制备？
您是否对所有样品使用相同的试剂？
您是否在同一地点进行RNA分离/文库制备？

如果任一答案为“否”，则说明您的样品有批次处理的问题。

6.2 有关批次的最佳做法：

如果可能，设计实验时应避免batches。
如果无法避免批量处理：

千万不要把分批的实验数据混淆！

Image credit: [Hicks SC, et al., bioRxiv (2015)]

如果在不同条件下处理样品，则复制越多越好（肯定大于2）。如果使用一次准备一个库的inDrops，请交替使用样品组（例如，不要先准备所有对照库，然后准备所有处理库）。

Image credit:[Hicks SC, et al., bioRxiv (2015)]

请在实验性元数据中包含批处理信息。在分析过程中，我们可以退还由于批次而引起的差异，也可以在各个批次之间进行差异比较，因此，只要掌握了这些信息，就能将影响结果的批次因素降到最小。

7.Conclusions

尽管scRNA-seq是一种功能强大且有见地的方法，可用于单细胞分辨率的基因表达分析，但仍存在许多挑战和变异来源，可能会使数据分析变得复杂或有限。

7.1 Overall, we recommend the following

除非对实验需要，否则不要进行单细胞RNA-seq。先问自己一个问题：能使用高通量RNA-seq来回答问题吗？因为与scRNA相比，HST RNA-seq 操作更为简单且成本更低？也许FACS流式对样品进行分类可以进行批量分析？
要知道您要解决的实验性问题的详细信息。推荐的库制备方法和分析工作流程可能会因具体实验而异。
如果可能，请避免处理上对结果造成的影响：在实验开始前与专家讨论实验设计，同时从样品中分离RNA制备样品库同时或备用样品组，以避免批次混淆，不要混淆性别，年龄不同，批次不同的样品组。