基本概念
表达趋势分析(Series Test of Cluster):将变化特征模式相似的基因归类到一种变化趋势中,从而找到实验变化过程中最具有代表性的基因集以及对应的趋势特征,揭示生物样本在变化过程中所特有的规律。
STEM趋势分析简介
STEM(Short Time-series Expression Miner)是一款专门针对梯度排序的表达量数据进行趋势分析的软件。
STEM趋势分析的意义
趋势分析将表达模式相似的基因进行归类,便于寻找目标表达模式,简化分析难度。
优势:
1)将大量的基因归类为几个或十几个趋势中,简化分析难度。
2)有相似趋势的基因更有可能行使相同的功能,便于数据挖掘。
软件原理
属于一种监督算法,将基因聚类归入认为形成的趋势内。(预先生成趋势,再将基因归纳进这些趋势)
软件适用范围
在梯度样本较少情况下(3-5个样本)
STEM趋势分析实操
数据准备
可以选择任何基因集来做趋势分析,比如:所有表达量有变化的基因、多个组别筛选后差异基因(差异倍数>2,p<0.05)的并集等。
将基因集按照下图所示的格式做成信息表,第一列为ID信息,后面几列为不同处理条件下的基因表达量,保存为制表符分隔文件(.txt文件)。需要注意的是,这里的基因表达量为该组中多个样本表达量的中值(注意!不是均值!)。
STEM运行
STEM软件为JAVA包,无需提前安装,直接运行即可,下载地址为Short Time-series Expression Miner官网,解压后直接双击文件夹中的stem.jar即可运行。
提交表达量数据
将上述基因信息表放入Data File中,一般选择标准化方式为:Log normalize data。
三种标准化方法的选择,原始数据选择第一个;取过对数的数据选择第二个;标准化后缺失0时间点则选择第三个。
参数选择
最大趋势数量选择
不难理解,从n样本,变换到n+1个样本有三种可能的趋势变化:上升、不变和下降。如果n=2,即有3个时间点,那应该有3×(3-1)-1=8种趋势。那有6个时间点,就会有242个趋势。这个参数就是设置最大用于分析的趋势数量,一般设置为20,如果本来趋势就少,这个值不需要考虑。
两时间点之间的差异
这个值同样决定了结果中趋势的个数,可以理解成当值设置成非1,则会依据差异倍数,把原始趋势进一步拆解成多个子趋势。默认值是2,一般建议设置成1。
基因筛选最小变化数目
点击参数设置中的Advanced Options进行设定,该值默认是1,如果基因数据本来就是筛选过的2倍差异基因,这个参数不需要考虑。但是,如果放入的基因数据没有经过筛选,该值就按需求设定。
提交任务
点击黄色的Execute按钮即可执行。
结果分析
我做的是3个时间点的数据,因此结果会给出8个趋势(Profiles),有颜色的趋势表示其p值满足设置要求。
可以通过点击图片下面的一排黄色按键中的Order Profiles,改变图片的排序模式。
点击各趋势,可以直接观看基因簇的表达趋势情况。
最后点击Profile Gene Table可以下载相应趋势的基因列表。