结果:
1. 数据获取
从GDC获取了TCGA-OC的FPKM数据集(n=427),并经过TPM和log2转化,从GEO获取了GSE63885数据集(n=101)。糖基化相关基因从MSigDB数据库获得。
2. 变量筛选及建模
首先,作者利用GEO数据集和WGCNA方法,获取与病人的生存时间和生存状态较为相关的基因,然后与糖基化基因取交集,利用KM生存分析筛选到9个高低表达对病人预后分组具有显著性的基因。然后利用5种机器学习算法,包括LASSO(-Cox)回归、岭回归、XGBoost、随机森林和AdaBoost对9种基因进一步筛选,最终基于ALG8、DCTN4、DCTN6和UBB四个基因计算风险评分。3. 临床变量相关性
接下来作者将构建的风险评分和临床病理变量做了独立预后分析和卡方检验,发现风险评分和年龄能作为独立预后因子,并且老年群体的风险评分较高,对应预后更差,同时建立了一个nomogram模型来预测病人1年、3年和5年生存率。4. 肿瘤免疫微环境
然后作者检验了四个建模基因在癌旁和癌症组织中的表达差异,并分析了他们与免疫细胞浸润程度的相关性,利用ssSGEA、CIBERSORT和ESTIMATE算法评估了免疫成分和风险评分的相关性/差异性,还分析了多种免疫检查点的表达在高低风险群体中的差异,发现低风险组病人的免疫成分较高,免疫检查点表达高。
5.突变分析
此外,作者利用maftools包对高低风险组的突变类型、突变频率进行了分析,发现低风险组的突变频率更高,而在同义突变和非同义突变中均未呈现出显著性差异。结论:
本研究首次通过整合机器学习和传统统计学方法建立了基于糖基化相关基因的预后风险模型,该模型能准确预测病人预后和免疫微环境以及免疫治疗效果。高风险组呈现出预后差、免疫成分少的特点。糖基化相关的基因能够帮助预后预测以及建立更加个性化的免疫治疗方式。