Nat Commun&JAMA INTERN MED|浅析两篇LASSO+Logistic/Cox 套路文章
两篇文章分别是来自NATURE COMMUNICATIONS
的Early triage of critically ill COVID-19 patients using deep learning
(https://doi.org/10.1038/s41467-020-17280-8)和 JAMA Internal Medicine
的Development and Validation of a Clinical Risk Score to Predict the Occurrence of Critical Illness in Hospitalized Patients With COVID-19
( doi:10.1001/jamainternmed.2020.2033).
22
LASSO+Logistic
第一篇为制定COVID-19住院患者发生危重疾病的临床风险评分并验证。
LASSO筛选重要预测指标
入院时测量的72个指标,经过LASSO回归选择,19个变量仍然是危重疾病的重要预测因子。
Logistic模型构建并验证
通过逻辑回归模型对19个变量进行再分析后,得出10个变量为重症疾病的独立预测因子。
- 训练集验证。
- 独立队列验证。
LASSO+Cox
第二篇为深度学习在新冠肺炎危重患者早期分诊中的应用。
LASSO筛选重要预测指标
入院时测量的74个指标,经过LASSO回归选择,确定了10个具有统计学意义(P<0.05)的特征。
Cox模型的建立与验证
这里作者使用了基于深度学习的生存分析 Cox 算法对这 10 项指标进行建模。相比于传统经典方法,深度学习的优势是可通过神经网络对特征进行高阶非线性组合,从而更深层次地建立特征与目标函数之间的映射。
之后,使用该模型对另外 1393 例外部患者的回溯数据分析来检验预测性能。外部测试集中 106 例发展成重症的患者中,只有 2 例存在数据异常的患者被错误划分到了低风险组。同时,该模型在不同中心的数据上获得的 C-index
均高于0.85,证明了模型的可靠性与有效性。
C-index
指一致性指数(index of concordance),通过评估模型预测结果与实际观察结果的符合程度,以评价模型的预测准确性,值越接近1,准确率越高。
AUC
指受试者工作特征曲线下面积,值在1.0和0.5之间,在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。
绘制Nomagram图
总结
这两篇文章,都是基于Lasso回归筛选变量后构建Logistic/Cox模型并验证。因为第二篇文章多了”生存“数据,故用了Cox模型之所以这两篇能发高分主要是时效性以及全国的样本库。细心的同学可能已经看到,这两篇文章都是同一个作者,来自广州的呼吸系统疾病国家重点实验室,也就是前几天很火的那位专硕发了80几篇sci的团队。我们虽然没有这么好的资源,但是可以学习借鉴别人的方法和套路。
写在后面:
小木舟水平有限,文中难免有些纰漏,希望各位读者能够不吝赐教。欢迎大家关注我的
B站:木舟笔记
,获取更多视频讲解。制作不易,希望大家多多点赞
、在看
。
往期文章
- 跟着CELL学作图|1.火山图
- 跟着Cell学作图 | 2.柱状图+误差棒+散点+差异显著性检验
- 跟着 Cell 学作图 | 3.箱线图+散点+差异显著性检验
- 跟着 Cell 学作图 | 4.小提琴图
- 跟着Cell学作图 | 5.UMAP降维分析
- 跟着Cell学作图 | 6.时间序列分析(Mfuzz包)
- 跟着Cell学作图|7.富集分析(Metascape数据库)
- 跟着Cell学作图|8.富集分析网络图(Cytoscape/ClueGO)
- 跟着Cell学作图|9.PPI分析(GeNets数据库)
- 跟着Cell学作图|10.复杂热图
- 跟着Cell学作图| 11.Ingenuity Pathway Analysis(IPA)
- 跟着Cell学作图 | 12.韦恩图(Vennerable包)