单细胞分析：PCA和归一化理论（七）

1. 学习目标

讨论为什么归一化计数对于细胞之间的准确比较是必要的
解释如何通过主成分分析 (PCA) 评估细胞之间的相似性

在获得高质量单细胞后，scRNA-seq分析工作流程的下一步是执行聚类。聚类的目标是将不同的细胞类型分成独特的细胞簇。为了进行聚类，确定了细胞间表达差异最大的基因。然后，使用这些基因来确定哪些相关基因组是造成细胞间表达差异最大的原因。

2. 计数归一化

第一个是计数归一化，这对于准确比较细胞（或样本）之间的基因表达至关重要。除了许多其他因素之外，每个基因的映射读数计数与RNA的表达成正比。归一化是缩放原始计数值的过程。以这种方式，细胞之间或细胞内的表达水平更具可比性。

归一化过程中经常考虑的主要因素有：

测序深度

考虑测序深度对于比较细胞之间的基因表达是必要的。在下面的示例中，每个基因在细胞 2 中的表达似乎都增加了一倍，但这是细胞 2 具有两倍测序深度的结果。

测序深度

scRNA-seq 中的每个细胞都有不同数量的与其相关的读取。因此，为了准确比较细胞之间的表达，有必要对测序深度进行归一化。

基因长度

考虑基因长度对于比较同一细胞内不同基因之间的表达是必要的。映射到较长基因的读数的数量似乎与表达更高的较短基因具有相同的计数。

基因长度

在scRNA-seq分析中，将比较细胞内不同基因的表达以对细胞进行聚类。如果使用基于 3' 或 5' 液滴的方法，基因的长度不会影响分析，因为仅对转录本的 5' 或 3' 端进行测序。但是，如果使用全长测序，则应考虑转录本长度。

3. PCA

主成分分析 (PCA) 是一种用于强调变化和相似性的技术，并在数据集中显示出强烈的模式；它是用于“降维”的方法之一。本课中简要介绍PCA，强烈建议您浏览StatQuest 的视频以获得更全面的解释。

一个简单的例子

假设您已经量化了两个样本（或细胞）中四个基因的表达，您可以绘制这些基因的表达值，其中一个样本代表 x 轴，另一个样本代表 y 轴，如下所示：

您可以在表示最大变化的方向上通过数据绘制一条线，在本例中位于对角线上。数据集中的最大变异发生在构成这条线的两个端点的基因之间。

基因在线上和线下有所不同。可以在数据中绘制另一条线，表示数据中第二大的变化量，因为该图是二维的（2 个轴）。

每行末端附近的基因是变异最大的基因；从数学上讲，这些基因对线的方向影响最大。

例如，Gene C 值的微小变化会极大地改变较长线的方向，而 Gene A 或 Gene D 的微小变化对其影响不大。

还可以旋转整个图，并查看代表变化的线条从左到右和上下。看到数据中的大部分变化是从左到右（较长的线），数据中第二大的变化是上下（较短的线）。您现在可以将这些线视为表示变化的轴。这些轴本质上是“主成分”，PC1 代表数据中最大的变化，PC2 代表数据中第二大的变化。

现在，如果有三个样本/细胞，那么将有一个额外的方向，可以在其中进行变化。因此，如果有 N 个样本/细胞，将有 N 个变化方向或 N 个主成分（PCs）！计算完这些 PC 后，处理数据集中变化最大的 PC 被指定为 PC1，下一个被指定为 PC2，以此类推。

一旦确定了数据集的 PC，必须弄清楚每个样本/单元如何重新适应该上下文，能够以直观的方式可视化相似性/不相似性。这里的问题是“基于 sample_X 中的基因表达，给定 PC 的 sample_X 得分是多少？”。这是降低维度的实际步骤，因为最终 PCA 图上绘制每个样本/单元格的 PC 分数。

为所有样本-PC 对计算 PC 分数，如下面的步骤和示意图中所述：

(1) 首先，根据每个基因对 PC 的影响程度，为每个基因分配一个“影响”分数。对给定 PC 没有任何影响的基因得分接近于零，而影响更大的基因得分更高。 PC 线末端的基因将产生更大的影响，因此它们将获得更大的分数，但符号相反。

(2) 确定影响后，使用以下等式计算每个样本的分数：

Sample1 PC1 score = (read count * influence) + ... for all genes

对于 2 个样本示例，以下是计算分数的方式：

## Sample1
PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51
PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7

## Sample2
PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21
PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5

这是前两个步骤的示意图：

(3) 一旦为所有 PC 计算了这些分数，就可以将它们绘制在一个简单的散点图上。下面是此处示例的图，从 2D 矩阵到 2D 图：

scRNA-seq 例子

假设您正在处理一个包含 12,000 个细胞的单细胞 RNA-seq 数据集，并且您已经量化了 20,000 个基因的表达。

计算出 PC 分数后，您将看到一个 12,000 x 12,000 的矩阵，它表示有关所有细胞中相对基因表达的信息。您可以选择 PC1 和 PC2 列并以 2D 方式绘制。

您还可以将前 40 台 PC 的 PC 分数用于聚类、标记识别等下游分析，因为这些代表了数据中的大部分变化。

注意：对于具有大量样本或单元格的数据集，通常仅绘制每个样本/单元格的 PC1 和 PC2 分数，或用于可视化。由于这些 PC 解释了数据集中的最大变化，因此期望彼此更相似的样本/细胞将与 PC1 和 PC2 聚集在一起。请参阅下面的真实示例：

真实案例

本文由mdnice多平台发布

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342

单细胞分析：PCA和归一化理论（七）

1. 学习目标

2. 计数归一化

3. PCA

推荐阅读更多精彩内容