本内容为【科研私家菜】R语言机器学习与临床预测模型系列课程
R小盐准备介绍R语言机器学习与预测模型的学习笔记
你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】
01 预测模型的本质
预测模型是通过已知预测未知。模型=数学公式。用已知的东西通过模型计算预测未知。
通过回归建模分析,回归的本质即为发现规律。回归是量化衡量X多大程度上影响Y。
模型的效能评价是统计分析、数据建模、课题设计的关键。
02 预测模型研究思路
03 模型验证的步骤
04 模型模型的样本量估计
EPV(events per variable):每个自变量所需要的事件数。
多因素分析中至少需要的 EPV数量为10-20个。
EPV=研究对象中较少组的数量/自变量的个数。
比如: 如果m个研究对象中有m1个人有疾病,m2个人无疾病
(m1+m2=m),同时m1小于m2,此时EPV=m1/n(n为自变量个数)。考虑 EPV>10,应该是足够的了。
05 模型验证及效能评价
- 诊断方法的鉴别能力(Discrimination):ROC分析、C-Statistics&C-Index
- 诊断方法的准确性(Calibration analysis) :Calibration plot
- 临床实用性(Clinical utility)-DCA :决策曲线
内部验证方法包括随机拆分验证、交叉验证以及Bootstrap重抽样;外部验证可采用不同时间、不同地域、不同时间及地域的数据集。
区分度(Discrimination)和校准度(Calibration)是两个最常见的模型评价指标。区分度是指模型区分是否患有待诊断的疾病(诊断模型)或是否发生预期的事件(预后模型)的能力,最常见的区分度刻画指标如AUC,或者C统计量。校准度则是评估预测的概率与实际观察到的概率的一致性,常见的统计指标是如Brier得分。此外,也有学者建议用校准截距(Calibration-in-the-large)、校准斜率以及决策曲线分析(Decision-curve analysis)来评价预测模型 。有时候,研究者想要比较新开发的模型对现有模型的改进,或者关注单个预测因子的预测效能增加值(Incremental value),此时用AUC值评价并不灵敏,推荐的指标是综合区分改善度(IDI)和净重分类改善度(NRI)。
关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型