杂志:Frontiers in Immunology
**影响因子: **7
研究概述:
骨关节炎(OA)是最普遍的关节疾病。线粒体功能障碍与 OA 的发病机制有关。该研究的主要目的是揭示线粒体在驱动 OA 发展的机制中的关键作用。作者从GEO数据库中获得了7个批量RNA-seq数据集,并分析了OA中与线粒体相关的差异表达基因的表达水平,随后利用单样本基因集富集分析(ssGSEA)、基因集富集分析(GSEA)和加权基因共表达网络分析(WGCNA)分析来探索与这些基因相关的功能机制。作者利用七种机器学习算法来识别中心线粒体相关基因并开发预测模型,鉴定出9个枢纽线粒体相关基因。进一步的分析包括通路富集、免疫浸润、基因-疾病关系发现这些基因主要与巨噬细胞有关。无监督共识聚类确定了两种线粒体相关的OA亚型,它们主要与代谢相关。单细胞分析表明,它们均在单细胞中表达,并随细胞分化而变化。最后通过RT-PCR实验验证,枢纽基因在OA中均有显著表达。
研究结果:
筛选OA中与线粒体相关的差异基因
作者整合了7个RNA-seq数据,在消除批次效应后进行差异分析,筛选到245个线粒体相关差异基因(DEG),以DEG进行ssGESA富集评分,发现OA中线粒体活性显著降低。GSEA分析进一步验证了这一点(图1E)。富集分析显示,线粒体相关DEGs在磷酸核糖代谢过程、线粒体基因表达、线粒体转运等过程中显著富集(图1F)。WGCNA分析表明,黑色模块与线粒体评分之间存在显着相关性(图1G)。图 1H 显示了黑色模块中每个基因的模块隶属关系 (MM) 和基因显着性 (GS)。黑色模块中基因的BP 和 KEGG 分析均显示,在细胞因子介导的信号通路、细胞粘附的正调控等过程中,黑色模块中的基因显着富集(图 1I)。黑色模块中基因的蛋白质-蛋白质相互作用网络如图 1J 所示。
机器学习识别中心线粒体相关 DEG
作者使用七种机器学习算法来独立识别前30个线粒体相关的DEGs(图2A-H),随后,以上七个机器学习结果取交集,产生了九个与中心线粒体相关的 DEG,即 SLC25A37、MTHFD2、SIRT4、DNAJC15、ETFDH、PDK4、CARS2、FKBP8 和 NFS1(图 2I)。热图显示了OA和对照样品中SLC25A37、MTHFD2、SIRT4、DNAJC15、ETFDH、PDK4、CARS2、FKBP8和NFS1的表达模式(图2J)。箱形图说明了这些基因在OA和对照样品中的表达水平(图2K)。这些基因的相关性和蛋白质-蛋白质相互作用信息分别显示在图2L和M中。功能相似性分析显示,PDK1在这些基因中占有重要地位(图2N)。这些基因的染色体位置如图2O所示。
诺瓦图和神经网络模型构建
在前面七个机器学习模型中,作者发现随机森林模型表现出最高的AUC值(图3A)和良好的灵敏度和特异性(图3B)。随机森林模型的AUC为0.968(图3C),表明其能够准确识别OA患者。内部验证进一步证实了模型的可靠性(图3D)。作者还依据模型构建了特征评分诺瓦图(图3E)。校准曲线验证了诺瓦图在诊断OA中的准确性(图3F)。决策曲线分析(DCA)表明,诺瓦图在临床应用中为OA患者提供了一定的益处(图3G)。在构建神经网络模型期间,图 3H 显示了 100 次训练迭代中每一次的准确率和损失率。如Kappa检验(图3I)所示,混淆矩阵表现出良好的一致性。图 3J 显示了预测结果和实际结果之间的比较。神经网络模型的结构如图 3K 所示。该模型的AUC为0.961,显示出高诊断性能(图3L)。
枢纽线粒体相关DEGs的富集分析
除SLC25A37外,MTHFD2、SIRT4、DNAJC15、ETFDH、PDK4、CARS2、FKBP8和NFS1在线粒体通路中均被显著激活(图4A)。图4B提供了使用KEGG通路基因集作为中心线粒体相关DEGs的背景基因集时显示出显着富集的前六条通路的详细信息。图 4C 说明了中心线粒体相关 DEG 与标志性通路基因集之间的相关性。
免疫浸润分析
图5A中的热图描绘了中心线粒体相关DEGs与免疫细胞之间的相关性。在散点图中显示了具有显着相关性的后续结果选择,提供了每个中心线粒体相关DEG与单个免疫细胞之间相关性的详细可视化(图5B)。图5C则是揭示了中心线粒体相关DEGs与免疫相关基因之间的相关性。
基因-疾病网络和mRNA-miRNA网络构建
通过分析基因与疾病之间的关联,作者构建了一个基因-疾病网络(图6A)。对于枢纽线粒体相关的DEGs,作者选择了五个包含最大数量的miRNA的数据库(图6B),并成功构建了mRNA-miRNA网络(图6C)。
枢纽线粒体相关基因的GWAS分析
通过对GWAS数据的分析,作者确定了OA中八个中心线粒体相关基因的疾病相关区域(图7A,B)。该图还显示了对应于 CARS2、DNAJC15、ETFDH、FKBP8、MTHFD2、NFS1、PDK4、SIRT4 和 SLC25A37 的单核苷酸多态性 (SNP) 疾病相关区域(图 7C-K)。
共识聚类分析
作者根据中心线粒体相关的DEGs对OA样本进行了共识聚类分析(图8A-D),可将OA样本划分为两个不同的亚型。 在亚型 1 中,CD8 T 细胞的表达显着降低,而 M0 巨噬细胞的表达显着升高(图 8E)。药物分析显示,STOCK1N.35696、fasudil、MK.886和X4.5.dianilinophthalimide是治疗亚型1患者的前五大潜在药物(图8F),而氯贝特、MS.275、NU.1025、伊马替尼和butein是治疗亚型2患者的前五大适用药物(图8G)。图8H和8I分别说明了亚型中涉及的一些生物过程和KEGG通路。文章图9则是对不同亚型进行了蛋白通路分析。
WGCNA亚型分析
利用亚型 1 和亚型 2 的信息,作者进行了 WGCNA 分析(图 9A-B)。在这些模块中,蓝色模块与亚型的相关性最强(图9C)。模块间的相关性如图 9D 所示。模块性状分析集中在蓝色模块上,显示了该模块内基因的MM和GS分布(图9E)。图10F则是对蓝色模块中基因进行了GO和KEGG富集分析。此外作者还利用人体组织表达图谱-Harmonizome数据库分析了中枢线粒体相关基因的表达情况(见文章图11)。
单细胞数据以及实验检测中枢线粒体相关基因的分布和表达情况
图10A描绘了OA中不同细胞类型中枢纽线粒体相关基因的分布和表达情况。在细胞分化过程中,SIRT4、DNAJC15、NFS1、FKBP8、SLC25A37、CARS2、MTHFD2、ETFDH和PDK4的表达模式发生了变化(图10B)。最后作者构建了人软骨细胞验证模型,利用RT-PCR分别检测了正常情况下和炎症中所筛选的中枢纽线粒体相关基因的表达情况(见文章图13)。
研究总结
在这项研究中,作者系统地分析了OA中与线粒体代谢相关的基因。通过差异表达分析,鉴定出一组与线粒体代谢相关的差异表达基因。使用7种机器学习算法,确定了9个中枢线粒体代谢相关基因。 基于以上九个基因,作者进一步分析了他们与标志信号通路,免疫细胞,疾病,之间的相关性,探讨了它们的单核苷酸多态性,筛选了基因相关的miRNA,检测了这些基因的表达和分布情况。 此外,作者还依据枢纽基因进行共识聚类,将OA分类为两个亚型,并预测了两个亚型各自适合的潜在药物。这篇文章是各种分析手段的集合,可以帮助生信入门小白加强对于一些基本分析手段目的和在线数据库的认识。