目前做GSEA主要有两种办法,一种是使用GSEA的java软件,另一种是使用R语言包,当时还有在线的工具
做GSEA的数据也有两种,一种是有基因表达矩阵和分组,另一种是使用两列数据(一列基因名,一列数值)
本文介绍一下使用log2FC排序后的结果做GSEA,这里是转载使用log2FC排序的基因集进行GSEA分析 | Bio Zhong这篇文章,也就是介绍用GSAE的java软件做分析,当时如果你会R语言,你可以用更好的办法
- ps:顺便介绍两种在线办法:
- 一种使用WebGestalt (WEB-based GEne SeT AnaLysis Toolkit)这个在线工具,傻瓜式的复制数据就行(注意,不要有表头数据),
- 还有一个SangerBox-生物医学数据分析盒子的在线工具也不错
1. 软件下载和安装(略)
2.准备数据集
使用excel准备数据集(这里用的是R语言对芯片数据或者测序数据进行差异分析的结果),如下
左边为基因转化好的基因symbol,右边一列为排序的值,这里为基因差异分析的log2FoldChange值,然后另存为制表符分隔的文本文件。保存后,将其后缀改为.rnk这样数据就准备完毕。
3. 加载数据
将准备好的preranked数据集以及下载好的.gmt文件(也可以用在线的)加载到软件。
4. GSEA分析
使用Run GSEAPreranked 工具进行分析。如果数据集有正常载入,就可以在Ranked List中找到准备好的排序的数据集了,然后选择其他参数,点击下方的三角形run按钮,就可以开始分析了。在软件左侧的GSEA reports栏中出现success,表示运行结束,点击success可以查看结果报告了。
5. 与使用R语言分析的结果比较
ID | enrichmentScore | NES | pvalue | Qvalue | |
---|---|---|---|---|---|
R | HALLMARK_P53_PATHWAY | -0.3621396 | -1.574098 | 0.00152439 | 0.00441898 |
GSEA软件 | HALLMARK_P53_PATHWAY | -0.373905 | -1.6437526 | 0.0 | 0.007029339 |
从图和数据结果来看,两者都是比较一致的。
备注: R语言的代码学习于jimmy老师github以及b站视频,感谢!
(代码: [https://github.com/jmzeng1314/GSE76275-TNBC/blob/master/step4-anno.R;