最早了解到主成分分析(Principal Component Analysis,PCA)是在一位师兄的毕业答辩上,当时听得是云里雾里,一头雾水。其实,主成分分析是因子分析的一种常用方法,主要目的是为了减少变量数目,也就是降维。
在高通量测序中,主要基于基因表达量、种群丰度等进行样本的聚类,下图是一篇客户文章的基于表达量的PCA结果。
那么该如何进行主成分分析呢?今天为大家介绍如何用Origin进行分析并完成散点图的绘制。
数据准备
本文所用的数据是OmicShare PCA分析工具的示例文件(如下图),大家可随意下载练习(http://www.omicshare.com/tools/Home/Soft/pca)。
示例为6个样本的1300多个基因的表达量数据,接下来需要做得是把每个样本的对应的1300多个数据用2个数据表示,降到2维后,就可用二维的散点图展示。
这里每个基因的名称视作1个变量,因此需要对数据进行手动转置,为了分组着色,在前面加1列分组数据,如下图(Sheet1 →Sheet3)。然后打开Origin,将数据粘贴到Origin的表格中。
对于这一点OmicShare的 PCA工具就显得智能和方便多了,直接上传数据,点提交任务就好啦。
分析作图
点窗口右侧的Apps,在弹出的窗口中点今天要用的PCA插件。
然后选择输入数据(Input data),具体方法如下图,注意这里的数据添加小技巧。
在绘图设置中这里选2D的散点图,如下图,当然你也可以选3D的散点图(使用3个主成分),点OK 即可完成分析和作图。如果样本较多,也可以选择显示置信区间椭圆(Show Confidence Ellipse)。
双击Score Plot中的图表,放大散点图,然后就可以对图表进行个性化调整,比如改变标记的形状、颜色、大小,显示数据标签等。
最终的的效果如下:
APP安装
Origin的强大之处在于具有很多官方的拓展工具(Apps),安装方法与之前介绍的Google Map Import、Heat Map Dendrogram等一样,只要将.opx的文件拖拽到打开的Origin界面即可完成安装,注意最好安装Origin 2017之后的版本。
本文用到的PCAC插件和示例数据已经上传到论坛,点击 这里 可以下载。
关于PCA分析,更详细的教程请查阅周老师的帖子《Omicshare tools——二维PCA分析使用教程》。
今天的内容就到这里啦~
拓展阅读
参考文献
Guo J, Qi J, He K, et al. The Asian cornborer Ostrinia furnacalis feeding increases the direct and indirect defense ofmid‐whorl stage commercial maize in the field[J]. Plant biotechnologyjournal, 2018.
为了更好的阅读体验,建议关注基迪奥生物公众号~