2023年6月7日,来自北京科技大学,清华大学与中山大学的研究者在biorxiv上发布了一篇题为“OmicVerse: A single pipeline for exploring the entire transcriptome universe” 的研究工作。该框架的提出,解决了单细胞转录组学与bulk转录组学分析中不同算法的格式不一致,运算过慢以及可视化问题。除此之外,该框架还提出了一种名为“BulkTrajBlend”的单细胞插补算法,用于解决单细胞测序中由于技术限制(如通量,细胞类型)导致的细胞分化的中断问题。我是论文的第一作者。
代码仓库:https://github.com/Starlitnightly/omicverse/
框架教程:https://omicverse.readthedocs.io/en/latest/
论文地址:OmicVerse: A single pipeline for exploring the entire transcriptome universe
引言
omicverse是在我大三保研做Bulk RNA-seq时提出的,当时为了自己的方便,就把差异表达分析(DEG),加权基因共表达分析(WGCNA),通路富集分析(GSEA)等整合进了一个叫Pyomic的包中方便自己调用,当时的野心很大,想把整个组学分析都用Python来完成(笑)。现在博士一年级,也做了快两年的单细胞分析,中途用了很多包,但不同的包之间,对于格式的需求往往是不一样的,而且有的包本身并没有好好利用GPU的计算优势,并且大部分的包所作的图与CNS上的图差别还是比较大的。所以我就把当时的Pyomic给捡了起来,把我做分析用到的所有包都塞进了omicverse里面,统一了它们的输入输出,并对部分可以优化的算法进行了优化,以及给出了一些新的可视化函数来帮助研究人员呈现结果。可能你会想,这不就是一个整合的包吗?但其实不是。
我通过大量的基准测试,以及相关的paper,整理出了一套最适的Python单细胞分析流程,Bulk RNA-seq分析流程与可视化。
我提出了一种新的生物学算法“BulkTrajBlend”,解决了单细胞测序中由于通量限制导致的细胞不连续现象。
Bulk RNA-seq
整个框架由三部分构成,分别是Bulk RNA-seq,singel cell RNA-seq以及Bulk2Single部分。omicverse提出了一套完整的Bulk RNA-seq分析流程,包括基因ID比对
,差异表达分析(ttest,wliconx,DESeq2)
,通路富集分析
,基因共表达模块分析
。在Supplementary Note里面,我们通过阿尔茨海默症的RNA-seq数据演示了整个分析
Bulk RNA-seq分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-bulk/t_deseq2/
single cell RNA-seq
对于单细胞分析,omicverse也提供了一套完整的分析框架,包括单细胞质控与预处理
,细胞类型自动注释
,细胞分化轨迹推断
,亚群差异表达分析
,细胞通路打分AUCell
,药物反应预测
,细胞通讯分析
。我们应用结直肠癌的单细胞数据来完成了分析的实验。
单细胞RNA-seq分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-single/t_cellanno/
scRNA-seq与scATAC-seq联合分析
在去年,来自北京大学的高歌课题组提出了一种名为GLUE的算法,将两个不同的组学层嵌入到一个低维空间中,文章发表在Nature Biotechnology。在2018年,多组学算法MOFA的提出解决了斑马鱼内胚层命运的分化问题,文章发表在Nature上。但MOFA受限于一个样本多个组学层,GLUE恰好可以解决不同组学层的整合问题,故我们将GLUE与MOFA的联合分析整合进了omicverse中。我们在Supplementary中应用阿尔兹海默症证明分析的可靠性。
多组学分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-single/t_mofa_glue/
从Bulk RNA-seq生成Single RNA-seq
2022年,浙江大学范晓辉课题组提出了BulkSpace算法,该算法利用解卷积与深度随机森林模型解决了从Bulk RNA-seq生成空间转录组数据的问题。我们将该算法拆解成两个部分:bulk2single与single2spatial,并且我们改进了single2spatial部分,因为原作者是想用深度随机森林完成分类问题,我们改成了神经网络完成分类问题,充分利用了GPU加速。我们对比了优化前后的算法,分类与生成效果一致,同时速度大幅提升。我们在阿尔茨海默症和PDAC数据上给出了算法的分析框架。
Bulk2single分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-bulk2single/t_bulk2single/
结语
我个人很喜欢这项工作,它减少了我很多的代码量。在论文的最后部分我是这么写的。我希望构建一个基于Python的转录组学分析框架与生态,但仅凭我一人之力可能还有很多问题没有发现,欢迎对omicverse感兴趣的研究人员在github上面提相关的issue或者pr,帮助omicverse变得更好。
github地址:https://github.com/Starlitnightly/omicverse/
||| 我们的目标是在Python环境中创建一个适用于bulk/singel RNA-seq分析和优美可视化的生态系统。用户可以利用Python社区的机器学习模型和专业知识,使用单一编程语言进行全面的转录组分析。随着OmicVerse不断发展,我们预计会进行持续更新,引入新的算法、功能和模型。OmicVerse预计将受益于bulk/singel RNA-seq社区,促进新模型的原型开发,建立跨组学分析的标准,以及加强科学发现的流程。
参考文献:
[1] Zeng Z, Ma Y, Hu L, Xiong Y, Du H. OmicVerse: A single pipeline for exploring the entire transcriptome universe. Cold Spring Harbor Laboratory; 2023.