写在前面
早前,我已经通过插件的方式,让所有 TBtools 用户,都能完成 RNAseq 数据分析,从测序原始数据到基因表达量,使用的是一个曲线救国的策略,即直接使用 kallisto,跳过读段回帖,直接进行读段计数。
目前,更为常用的 RNAseq 上游数据分析流程,应该还是读段回帖之后进行读段计数。一般情况下,使用的软件是:star / hisat2。前者对内存要求高,而后者做了专门的层级索引设计,可以在个人电脑甚至是笔记本(比如我的笔记本 8G 内存)上完成绝大多数物种的转录组读段回帖。
于是,前几天对应的插件都开发出来了,即 hisat2-build 和 hisat2-align。走到这里,我们还能更进一步,做更有意义的事情。
早前的Kallisto本身是依赖于基因组基因结构注释的,其准确程度颇受已有注释的影响,而hisat2等基于回帖的,我们可以进一步做注释“自动校正”以及新转录本或基因挖掘。更为全面一些。这些,则往往常用的软件是 Stringtie。
Stringtie目前为止,并没有人编译windows版本(有点像 MCScanX 当初的情况),于是我做了尝试,调整了源码,并编译了(注:苹果用户 Mac 直接有可用程序,不存在这个问题)。折腾折腾,现在我们可以直接在 TBtools 里面进行转录组的有参考组装以及基于读段回帖的表达量估计。
于是,有必要整理一个教程,理清四个插件的使用,步骤如下:
- Hisat2-Build 建立索引
- Hisat2-Align 进行读段回帖
- Stringtie-Assembly 进行转录本组装
- Stringtie-Quantify 进行表达量估计
插件获取
插件直接从 TBtools 插件商店获取。主要到推荐从高速商店获取,参考前述推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。
示例数据
Hisat2-Build 建立索引
设置基因组序列文件,用于建立索引
点击Start,并等待即可
可以看到输出目录会新的索引相关文件产生
如此,即完成了索引构建。
Hisat2-Align 进行读段回帖
总的来说,基本没什么特别要注意的,除非数据是链特异的,那么最好设置一下。另外是,是否很关注多匹配的reads,如repeat区域,那么可以考虑提高max hits。
恩,Threads 参数控制的是并行任务数目,而不是stringtie运行时的线程数。简单来说,假设输入的是 6 个样品,Threads设置为 2 ,那么同时会有最多两个样品在进行组装(即并行)。
输出结果会放置在输出目录下,
大体如下,
注意到,本文示例中只设置了一个样品,即reads。如果是多个样品,那么会分别输出4个类似文件。
Stringtie-Assembly 进行转录本组装
可能唯一需要注意的就是....并行任务数,可参考前述推文,其实常常也无需修改,一般按照电脑有多少个线程,保留2个,剩下的都可以用上试试。
示例数据只有一个样品,所以只组装出一个XXXX.assembly.gtf。无论有多少个输入样品,最终每个样品都会被独立组装,最后合并成一个 merged.stringtie.gtf。这个文件,可用于后续任何分析(亦即,完成了转录本组装)。
Stringtie-Quantify 进行表达量估计
Stringtie 除了进行组装,还可以估算转录本以及基因的表达量。
按照要求设置文件即可,可能需要调整的就是read length,如果你想要得到 read counts,用于下一步差异表达分析的话。
运行后,可以看到在输出目录增加了 6 个文件。
具体不详细展开。大伙应该知道是啥。
插件均已上传至高速商店,
感兴趣地同样参考前述推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》
写在最后
今天是大年初一 ~~~
新年新气象,
祝所有 TBtools 用户朋友,
牛年大吉!