PCA即主要成分分析指的是将多维度信息在转化为低纬度信息的同时,尽量保存有原本的信息差异的方法。如下图所示
假设x,y轴分别为geneA和geneB的表达,而图上各点表示为6个样本。此时我们想通过geneA和geneB的表达差异将这留个样本分为两组。这时候即需要将二维的基因表达数据转化为一维分组,同时,在转换时还要保持基因原本的表达差异信息。
这时候,我们就需要在原始数据上找到一个新的坐标系,并且保证各点映射到新坐标轴上的映射点之间的分布最分散,以此来保存我数据的原始差异。(假如每个样本都映射在同一个点上,这样的映射就完全失去了样本差异)
所以,这时候我们需要两个步骤
1.去中心化(把坐标原点放在数据中心)
2.找坐标系(找到方差最大的方向)
以上两个步骤简单来说,就是找到一个过原始数据的轴,使得各点到新轴线上的垂直距离之和最短(具体可用勾股定理推得),而这条新轴线即为PC1
PC2则为垂直于PC1的新新轴线,且各点到这条垂直于PC1并且通过原点的新新轴线上的垂直距离之和最短
在理解原理后,我们即可通过上图的方式计算PC1和PC2乃至PC3在差异中所占据的比例。如图上PC1占据差异的83%,而PC2占据17%(注:假如此时我们有3个基因的表达,即有PC1,PC2,PC3,此时计算原理与方法同上)。同时在每个PC中,都有着在构建此PC最大表达差异的基因,如下所示
但是在真正的样本表达谱中,并不是所有基因都可以反映样本的差异性的,如某些基因之间却有着调控、协同或拮抗的关系,表现为它们的表达值存在一些相关性,这就造成了统计数据所反映的信息存在一定程度的冗余,或者如持家基因在所有样本中表达都一样,它们对于解释样本的差异也没有意义。因此,在单细胞分析中,过少的PC数量无法代表样本的差异,而过多的PC数量则会引入无生物学意义的基因变化,即背景噪音。
因此我们在单细胞分析中,我们只需要在FindNeighbors一步前选出合适的PC数量即可,可使用elbowplot函数
在筛选出合适的PC数量后,我们只后续需使用UMAP和tSNE对我们的样本进行二维可视化即可,其中可视化原理之后补充。
药物型尖端扭转型室性心动过速:一个白天上手术,晚上写代码的苦逼外科医生φ(..)