于是,TBtools - RNAseq 全家桶到位!
写在前面
很久很久以前,TBtools 解决了 RNAseq 数据分析中几个常见问题:
- 基因功能注释,NR,SWISSPROT,GO注释等
- 基因集功能富集分析,GO和KEGG
去年,通过插件众筹,我们完成了:
- 公开可获取测序数据 SRA 的信息整理
- Ascp Wrapper,高速下载测序原始数据
- SRAtoFastq 格式转换
- FastQC 测序质量评估
- Trimmomatics 测序数据清洗
- Kallisto Wrapper 读段计数与基因表达量估计
仔细观察其中,以前和去年做的事情,中间还差一个东西,那就是基因差异表达分析。
新插件 DESeq2 Wrapper
这几天,协助师弟们完成一些合作课题(....挺多合作的,希望他们得到锻炼的同时,也多少拿个共同作者吧...对我来说没啥用)。其中,让一个师弟尝试跑了下之前我写的差异表达分析流程,报错~~~。查了查,输入文件 ID 的大小写问题。伤心。很久很久以前,我就看差异表达分析这块很不爽。于是,Emmm... 一边等着听课,另一边我就优化了以前的 R 脚本,顺手几分钟就打了一个 TBtools R plugin。以后,这些什么差异表达分析,我就直接本地做了。能点点点,我还搞命令行干啥?
目前该插件已经上传到 TBtools Plugin Store(插件商店),所有用户选中该插件
Differential Gene Expression Analysis-DESeq2 Wrapper
,点击 Install Selected Plugin
即可完成插件安装。(注意:之前推文提到的 Rserver Plugin 需要先安装,不了解的具体翻历史推文)
界面介绍
大体给大家画一画,其实比较简单,就 三个输入文件。
首先是第一个输入文件Counts矩阵
,几乎所有读段计数软件,比如HTseq,featureCounts,StringTie,Kallisto等,都可以输出并得到Counts矩阵,大体放到 Excel 长这样。
其次是一个样品归组信息,比如做了一个实验,对香蕉做了低温处理,那么会有 对到和低温两个分组的数据,分别有 3 个生物学重复,那么样品分组信息大体可以长下面这个样子。
注意是三列,尽管第二列看起来其实没啥用,但请还是保留。而第一行,注意到,必须是
#
开头,或者直接删掉这一行。完全可以想象,如果你样品足够多,那么可以有 N 个 Condition,就一直列下去就可以了。一定要注释的是 Sample 名字,比如 sample1,sample2,。。。这些必须大小写都跟上述 Counts 矩阵的列名对应。
而最后则是一个比较信息,我们做基因差异表达分析,肯定是某个条件跟某个条件的两两比较,针对上述只有一个处理和一个对照,那么这个文件就很简单,如下
注意到,支持做 N 中比较组合,只要你的 conditions 数目够多。比如某个课题可能回事多个时间点,大体或许是:
# Sample1 Sample2
0days 3days
3days 5days
5days 7days
等等。
具体示例
我写这个插件的时候,随手找了一组数据,并打包成 Demo Data,随着插件分发。所以大伙应该任何一个人都能重复下述分析。把示例数据都放到 TBtools 之后,应该是这个样子。
第一次运行,这个插件会调用 TBtools 的 Rserver 插件,下载并安装
DESeq2
,需要网络也需要一点时间;但此后每一次运行应该都很快。运行完成,对于每两个样品的基因差异表达分析,会输出三个文件,如下
分别是
- 一个MAplot,大体可以看看差异表达分析结果是否存在异常,绝大多数时候,看都不用看
- 所有经过差异表达显著性检验的基因的检验结果,未经过foldchange 和 pvalue或padjust筛选的表格,这个表格常用
- 自动筛选的,差异表达显著的基因,筛选标准为
|log2fc|>=1 and padjust<=0.05
具体值截取一部分给大伙看看
写在最后
Emmmm,看来 RNAseq 套装,要重见天日了。