在微生态研究中,当我们做完16S或宏基因组测序等多样性测序后,想找出不同处理组之间差异物种或差异基因,一般常用的组间差异分析metastats(只能用于两组之间的差异比较)、LEfSe、秩和检验等。那么,该如何根据自己的数据特征选择不同的差异统计方法并获得相应的差异分析结果呢?
今天将给大家介绍一款简单实用的组间差异分析软件-STAMP,而且该软件分析获得的图片可直接用于文章的发表。
STAMP来源于2014年的文章(下图),在短短的时间内受到众多科研者的青睐,目前其被引用240+次,非常值得肯定。该软件的强大之处,不仅能够对两组甚至多组样本及两两样本之间的KEGG、COG、基因及任何分类水平的物种等进行显著性差异分析,同时带有10多种可选择的差异检验方法以及图形展示形式(柱状图,散点图,热图,pca图等)。最重要的是,每种图形基本上都能直接用于发表文章,而且该软件的操作简单易学。
STAMP软件下载网址:http://kiwi.cs.dal.ca/Software/STAMP(可支持windows,linux及OS X多种操作系统,根据需要自行下载安装。该软件的安装也十分简单,按照默认的参数选择安装即可)
言归正传,在使用STAMP软件之前,首先需要准备文件(丰度表文件和分组信息文件),文件的格式如下(以OTU丰度表为例)。
1)丰度文件,每列之间用tab键隔开的txt文件(可在excel表格内编辑,然后保存为txt格式文件,需要注意的是该文件一定要包含表头)
2)分组信息文件(格式同丰度表格式,该文件也需要加入表头,否则会默认第一行为表头,导致样本缺失。)
准备好以上资料后,我们就可以开始一步两步,跟着小编的步伐一起来~
1、文件导入(方法File-load data,选择文件导入,注意文件存放的路径中不能包含中文字符)
2、文件导入成功后,就可以设置参数,绘制专属的图片了。具体的参数设置见下图:
该软件默认打开界面Multiple groups(多组比较),根据实际需要的比较方案进行选择,比如想进行两组之间的比较,首先点击Two groups,然后选择需要比较两组的组名以及统计方法和过滤条件,即可进行显著性差异统计分析。其中多组分析统计学方法包括ANOVA和Kruskal-Wallis H-test。
两组之间比较统计学方法包括t-test(equalvariance),Welch’s t-test和White’snon-parametric t-test。为了确保统计学意义和结果的准确度,需要选择合适的检验方法。t-test检验可以在最少样本数为4的时候保持较高的准确度和精确度,当两个分组之间具有相同的方差时,用t-test更为准确,当方差不同时,Welch’s t-test更为准确。White’s non-parametrict-test算法计算时间较长,当样本数目少于8的时候,可以使用该检验方法,当样本数目过多时,不宜使用该检验方法。
3、作图类型和图形导出
4、结果示例
5、STAMP软件使用注意事项
1)STAMP作图原始数据来源?
STAMP软件可以直接使用QIIME的biom文件和PICRUST的KEGG和ko文件,groupfile需要老师根据自己实验设计进行样本分组。
值得注意的是,这些结果文件存放路径中不能存在中文字符,否则在数据无法导入到软件。比如文件路径为:E:16Sstamp_dataOTU_table.txt(不存在中文字符是可以的),如果文件路径为E:stamp_分析OTU_table.txt(存在中文字符报错)或者文件存在中文字符也是不行的,比如E:stamp_dataOTU_丰度表.txt
2) Unclassiffied选项中,remain Unclassiffied reads、remove Unclassiffied reads、和use only forcalculating frequency profiles 方法的区别?
当输入的丰度表文件和分组文件样本不一致时,对该参数进行设置。其中remain Unclassiffied reads和use only forcalculating frequency profiles方法会保留所有的数据,而removeUnclassiffied reads仅仅保留有确定分组信息的数据。注意的是,分组文件的样本一定在丰度表文件中存在,否则会报错,反之,是可以的。
3)当打开了一个分析文件后,如果再重新打开新的文件会显示错误?
主要原因是目前版本的STAMP存在一些小的bug,一次分析只能使用一个数据文件,如果要打开新的数据文件,需要关闭软件后重新打开。如果分析完成,一定要记得保存哦,不然需要再重新分析一次。