6.单细胞 RNA-seq:归一化和 PCA 分析

计数归一化和主成分分析

在获得我们的高质量单细胞后,单细胞 RNA-seq (scRNA-seq) 分析工作流程的下一步是执行聚类。聚类的目标是将不同的细胞类型分成独特的细胞簇。为了进行聚类,我们确定了细胞之间表达差异最大的基因。然后,我们使用这些基因来确定哪些相关基因集是造成对细胞间的表达差异最大的原因。

image

在进行聚类之前,先需要理解几个概念。

Count normalization

第一个是count normalization,这对于准确比较细胞(或样本)之间的基因表达是至关重要的。每个基因的RNA表达,通过mapped reads 这一有意义的数值来反映,但是这一数值还会受到许多其他无意义的因素干扰。Normalization就是缩放原始计数以解决“无意义”因素的过程。这样,表达水平在细胞之间和/或细胞内更加具有可比性。

归一化过程中经常考虑的主要因素是:

  • 测序深度:考虑测序深度对于比较细胞之间的基因表达是必要的。在下面的例子中,每个基因在细胞 2 中的表达几乎都翻了一番,但这是因为细胞 2 的测序深度增加了两倍。
image

scRNA-seq中的每个细胞都将具有与之相关的不同数量的reads。因此,要准确比较细胞之间的表达,有必要对测序深度进行标准化。

  • 基因长度:比较相同细胞内不同基因之间的表达,需要考虑基因长度。映射到较长基因的reads可能看起来与较高表达的较短基因具有相同的计数/表达。
    image

在 scRNA-seq 分析中,我们将比较细胞内不同基因的表达以对细胞进行聚类。如果使用基于 3' 或 5' 液滴的方法,基因的长度不会影响分析,因为仅对转录物的 5' 或 3' 末端进行测序。但是,如果使用全长测序,则应考虑转录本长度。

主成分分析 (PCA)

主成分分析(PCA)是一种既强调相似性又强调变异的技术,用来在数据集中产生强模式(降维)。我们将在简要介绍PCA(改编自StatQuests/Josh Starmer的YouTube视频),强烈建议您浏览YouTube的StatQuest视频,有更全面的讲解。

解释一个简单例子

假设您已经量化了两个样本(或细胞)中四种基因的表达,您可以绘制这些基因的表达值,其中一个样本表示在 x 轴上,另一个样本表示在 y 轴上,如下所示:

image

在表示最大变化的方向上通过数据绘制一条线,在本例中,该方向位于对角线上。数据集中的最大变异发生在构成这条线的两个端点的基因之间。

我们能看到基因在该线的上方和下方有些不同。同时我们可以在数据上绘制另一条线,表示数据中变化第二大的量,因为该图是二维(2轴)的。

image

每条线末端附近的基因将是那些变异最高的基因;这些基因在数学上对线条的方向影响最大

image

例如,基因 C值的微小变化会极大地改变较长线的方向,而基因 A基因 D的微小变化对线条方向影响很小。

image

我们还可以旋转整个曲线图,并以从左到右、向上和向下的方式查看表示变化的线条。我们看到数据中的大部分变化是从左到右的(较长的线),第二大的变化是向上和向下的(较短的线)。现在,您可以将这些线视为表示变化的轴。这些轴本质上是“主成分”,其中PC1代表数据中最大的变化,而PC2代表数据中第二大变化。


image

如果我们有三个样本/细胞,那么我们就会有一个额外的方向可以发生变化(3D)。因此,如果我们有N个样本/细胞,我们就会有N个变化方向或N个主成分(PC)!一旦计算出这些PC,处理数据集中最大变化的PC被指定为PC1,第二PC被指定为PC2,依此类推。

一旦为数据集确定了PC,我们就必须弄清楚每个样本/细胞是如何重新适应坐标系的,这样我们才能以直观的方式可视化相似性/差异性之处。这里的问题是“基于Sample_X中的基因表达,给定PC的Sample_X得分是多少?”按照以下步骤对所有样本计算PC对分数:

(1)首先,根据每个基因对每个PC的影响程度,给每个基因分配一个“影响力”分数。对给定PC没有任何影响的基因得分接近于零,而影响更大的基因得分更高。PC线末端的基因会有更大的影响,所以他们会得到更高的分数,但有相反的符号。
计算所有样本-PC 对的 PC 分数,如下面的步骤和示意图中所述:

image

(2)确定了影响值,每个样本的分数将使用以下公式计算:

Sample1 PC1 score = (read count * influence) + ... for all genes

对于我们的 2 个样本示例,以下是分数的计算方式:

## Sample1
PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51
PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7

## Sample2
PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21
PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5

这是前两个步骤的示意图:

image

(3) 一旦计算出所有 PC 的分数,就可以将它们绘制在一个简单的散点图上。下面是示例的绘图,从 2D 矩阵到 2D 绘图:

image

scRNA-seq 示例

假设您正在处理12,000 个细胞的单细胞 RNA-seq 数据集,并且您已经量化了20,000 个基因的表达

image

计算 PC 分数后,您会看到一个 12,000 x 12,000 的矩阵,该矩阵表示有关所有细胞中相对基因表达的信息。您可以选择 PC1 和 PC2 列并以二维方式绘制它们。

image

您还可以使用前 40 个 PC 的 PC 分数进行下游分析,如聚类、标记识别等,因为这些代表了数据中的大部分变化。我们将在后面对此进行更多讨论。

image

注意:对于具有大量样本或细胞的数据集,通常只绘制每个样本/细胞的 PC1 和 PC2 分数,并进行可视化。由于这些 PC 解释了数据集中的最大变化,因此期望彼此更相似的样本/细胞将与 PC1 和 PC2 聚集在一起。请参阅下面的真实示例:

image

图片来源:https://github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb) : //github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容