[R语言可视化-精美图形绘制系列]--主成分分析(PCA)

本期内容为[R语言可视化-精美图形绘制系列]--主成分分析(PCA)

主成分分析:PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。


一、降维概述

1.1 数组和序列(Series)的维度

对于数组和序列(Series)来说,维度就是shape()函数返回的结果,shape()函数中返回了几个数字,就是几维(也有人看array()开头或者结尾连续中括号的数量)。

不分行列的数组叫一维数组,此时shape返回单一的维度上的数据个数。有行列之分的数组叫二维数组,也称为表。一张表最多有二个维度,复数的表构成了更高维度的表。当一个数组中存在2张3行4列的表时,shape返回的是更高维度的行和列。当数组中存在2组2张3行4列的表时,数据就是4维,shape返回(2,2,3,4)。

数组中的每一张表,都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。

1.2 图像中的维度

对图像来说,维度就是图像中特征向量的数量。特征向量可以理解为是坐标轴,一个特征向量定义一条直线,是一维;两个相互垂直的特征向量定义一个平面,即一个直角坐标系,就是二维;三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维;三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。

1.3 降维解释

降维:算法中的“降维”,指的是降低特征矩阵中特征的数量。降维的目的是为了让算法运算更快,效果更好,但其实还有另一种需求:数据可视化。图像和特征矩阵的维度是可以相互对应的,即一个特征对应一个特征向量,对应一条坐标轴。所以,三维及以下的特征矩阵,是可以被可视化的,这可以帮助我们很快地理解数据的分布,而三维以上特征矩阵的则不能被可视化,数据的性质也就比较难理解。

--

一、标准化

为了让每一个维度对分析的结果造成同样的影响,我们需要对连续的初始变量的范围作标准化。

具体一点说就是因为我们后续的结果对数据的方差十分敏感,取值范围较大的维度会比相对较小的维度造成更大的影响(例如一个在1-100之间变化的维度对结果的影响,比一个0-1的更大),会导致一个偏差较大的结果,所以,将数据转化到相似的范围可以预防这个问题。

数据标准化的方法如下

image

二、计算协方差矩阵

这一步是为了理解数据集中的变量是如何从平均值变化过来的,同时可以查看不同的特征之间又有什么关系,此时我们要计算协方差矩阵。

协方差矩阵是一个PP的对称矩阵(P是维度的数量)它涵盖了数据集中所有元组对初始值的协方差,例如一个拥有三个变量x,y,z和三个维度的数据集,协方差矩阵将是一个33的矩阵(协方差的计算方法及含义见上文):

image

--

资料来源:

干货 :一文读懂主成分分析_数据分析v的博客-CSDN博客

主成分分析(PCA)二哥不像程序员的博客-CSDN博客主成分分析


代码部分:

1. 导入数据

## inputdata PCA data 
Sample01   Sample02    Sample03  Sample04
mRNA.Solyc00g500329.1.1 -0.2707275  0.4083721 -0.11663103 -0.521047
mRNA.Solyc00g500296.1.1 -0.2707218  0.4827739 -0.05794281 -0.521047
mRNA.Solyc01g005160.4.1 -1.2118387 -0.6153115  1.19154446 -1.224433
mRNA.Solyc01g005760.3.1  0.1866860  0.3774126  0.27799407  1.073132
                           Sample05
mRNA.Solyc00g500329.1.1 -0.29660887
mRNA.Solyc00g500296.1.1 -0.26940989
mRNA.Solyc01g005160.4.1 -0.02515638
mRNA.Solyc01g005760.3.1  0.87927082

## 
Samp  conditions
Sample01  CK
Sample02  CK
Sample03  CK
Sample04  Group01
Sample05  Group01
Sample06  Group01
Sample07  Group02
Sample08  Group02
Sample09  Group02
Sample10  Group03
Sample11  Group03
Sample12  Group03
Sample13  Group04
Sample14  Group04
Sample15  Group04
   CK   Treat_01    Treat_02   Treat_03   Treat_04
gene01 -0.84977517  1.4181238 -0.54757208 -0.1937784 -0.2953731
gene02  0.47702001  1.2419958  0.30147166  0.3991298  1.8328058
gene03 -0.25585638 -0.8757098  0.01523679  0.3542401 -0.2953731
gene04 -0.76343921 -0.1194277 -0.15231595  0.8108953 -0.2953731
gene05  0.01850849 -0.8757098 -1.42282342  1.0168803  3.6391267
gene06 -0.84977517  1.6553410 -0.96212175  3.2958347 -0.2953731
  1. 过滤参数
data <- data[apply(data, 1, var)!=0,]
  1. 计算绝对偏差
mads <- apply(data, 1, mad)
data <- data[rev(order(mads)),]
  1. PCA分析,scale标准化
pca <- prcomp(data_t[,1:variableL], scale=TRUE)
head(pca)
  1. 结果展示
fviz_eig(pca, addlabels = TRUE)
## PAC样品聚类信息展示
fviz_pca_ind(pca, repel=F)
## 根据样品分组上色
fviz_pca_ind(pca, col.ind=data_t$conditions, mean.point=F, addEllipses = T, legend.title="Groups")
  1. 根据分组上色并绘制95%置信区间

    --
    往期文章(总汇)
    01-[R语言可视化-精美图形绘制系列]--精美火山图
    02-R语言可视化-精美图形绘制系列--柱状图
    03-R语言可视化-精美图形绘制系列--功能富集分析
    04-R语言可视化-精美图形绘制系列—多组GO富集可视化
    05-[R语言可视化-精美图形绘制系列--堆积图]
    06-[R语言可视化-精美图形绘制系列--组间相关性分析]
    07-[R语言可视化-精美图形绘制系列]--Mental分析
    08-[R语言可视化-精美图形绘制系列--复杂热图+两图渐变连线]-【转载】
    09-[R语言可视化-精美图形绘制系列--桑基图(Sankey)]
    10-[R语言可视化-精美图形绘制系列--柱状图误差线标记]
    11-跟着NC学作图 | 柱状图与相关性图
    12-[R语言可视化-精美图形绘制系列--GO、KEGG富集通路关联图]
    13-[跟着“基迪奥生物学”作图]--截断图
    14-[R语言可视化-精美图形绘制系列]--显著性箱线图
    14-2[R语言可视化]--箱线图不同的画法及参数设置 | 学习笔记
    15-[R语言可视化-精美图形绘制系列]--组内相关性分析
    --
    小杜的生信筆記 ,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容