写在前面
故事一
最近,带着一个师弟搞合作课题,期间发现,基因结构注释矫正非常重要。错误的基因结构注释会引发错误的判断,从而甚至错失一些课题故事亮点。(当然,我们有我之前写的IGV-sRNA和IGV-GSAme,分分钟搞定)。很久很久以前,我基于IGV源码个性化开发了IGV-GSAme,目的就是快速矫正基因结构注释,更或者一边挖生物学故事,一边矫正基因结构注释。开展这一部分工作的前提是依赖转录组测序数据回帖文件,就是SAM/BAM。
可以说,这是我一直不爽的事情,难道不能让所有人都可以自己回帖,自己矫正数据吗?
故事二
前面,调用 Kallisto,我已经搞定了RNAseq数据分析,从测序原始数据(甚至是SRA)文件到表达量以及Read Counts 的界面化,所有人,只要用的是 Windows 或 MacOS 系统,都可以轻松完成。再借助 TBtools 老铁用户们贡献的 R Plugins,可以说,差异表达分析,富集分析,也全了。我自认为,几乎完美!
但这个仍旧美中不足,为什么?因为 Kallisto 只是真mapping,而“假”比对。无论怎么说,他的准确程度严重依赖与基因结构注释。换句话说,尽管趋势没啥问题,数值偏差不大,但偏差并不会消失。要尽可能准确,还是得Align,而不是 Quant。
一切一切,让我很不爽!搞个基因结构注释矫正,就那么难?不能让所有人都搞得了吗?
当然不是!
“山重水复疑无路,生信分析 TBtools!”,花了一点点时间,先搞了第一步,Hisat2-build,即索引构建。
我们很清楚,对于转录组回帖软件来说,索引构建总是比回帖时需要占用的内存大得多。只要能构建索引(或者下载到别人构建好的索引),那就可以回帖。
于是,TBtools 又增加了一个插件!(本帖预告)
在Windows下,4G内存的PC,测试索引构建,完美!
在MacOS下,VMware虚拟机,4G内存,测试香蕉基因组的索引构建,完美!
大概花了 15 min。
怎么说呢?这里有一个 Trick 的地方。索引构建其实可以通过插入剪切位点位置和外显子位置,搞得需要非常高的内存,以至于人类基因组就需要上百G。但这类索引则一般更适合在成熟的物种上,比如模式生物。这就有趣了,因为模式生物的Hisat index,直接去官网下载构建好的就行了。对于非模式生物,其实已知注释本来就不准,那么插入就几乎不存在意义。常规模式挺好~
于是,剩下的就是下一步,Hisat-align ~
写在后面
假期更是忙碌,
那么这个车开不开?车票定多少合适呢?