PSM近年来成为观察性研究的加分技能
当我们需要在观察性研究中对比两组不同人群的不同特征或者疾病发生发展时,两组人群往往会存在许多潜在的混杂因素的不均衡,而这些不均衡会使我们的比较结果产生偏倚。在实验性研究中,我们可以通过随机分组尽可能消除这种混杂因素的不均衡,但在观察性研究(包括真实世界研究)中我们无法对研究对象进行随机分组,因此,我们需要使用额外的方法对混杂因素进行均衡,那就是倾向性评分匹配,倾向性评分匹配的方法对两组人群根据选择的混杂因素进行匹配,使得两组人群的混杂因素尽可能均衡,从而减少混杂因素对结果的混杂效应。
01
定义
倾向性评分匹配(PSM):就是通过一定的统计学方法对试验组和对照组进行筛选,使筛选出来的研究对象在临床特征(潜在的混杂因素)上具有可比性。此时,如果试验组与对照组的结局存在差异,那就可以将差异完全归结于试验因素。
02
论文实例
2020年发表在Cell Merabolism的一项研究,院内使用他汀类药物与COVID-19患者死亡风险降低相关
研究对象:COVID-19患者
X:接受和未接受他汀类药物治疗,以及接受他汀类药物治疗的同时是否接受ACEI/ARB治疗
Y:全因死亡风险
研究设计:回顾性队列研究。纳入了13981人,PSM后剩下4305人,样本量少了很多,按1:4进行匹配。
03
为何要做PSM呢?
目的是控制混杂:使接受和未接受他汀类药物(X)的COVID-19患者基线情况相似。
解决办法:通过PSM对试验组和对照组进行匹配,使得试验组和对照组的患者基线相似。
给出试验组和对照组,然后根据匹配数随机进行匹配。如1:1匹配,随机选1个配对;1:2匹配,随机选2个配对。因此PSM的方法又被成为事后随机化,相当于在队列里面构建RCT。这个就厉害了!
04
论文中基本图表套路
参考Cell Merabolism的论文:
表1,给出匹配前基线指标的分布情况
表2,给出匹配前后的研究对象基线指标的分布情况
表3,在匹配后的研究对象中做回归分析
05
软件操作练习
练习数据:易侕软件自带的练习数据demo。研究降压治疗对某结局指标FCV的影响。X是:HBP(0= untreated ,1= treated)。研究对象有唯一编码ID。现在根据性别、年龄和BMI,对治疗方案做1:2配对。
使用易侕软件“数据操作”菜单下的“两组(病例对照)配对”模块。
选择两分组变量(HBP)、需要配对的变量(sex、age、BMI)、研究对象编号(subj)变量。研究者根据需要设置匹配比例,例如这里设置匹配数1:2。勾选“计算倾向性评分再按评分配对”。这里要设定倾向性评分容许两组相差范围,例如这里默认0.05。
易侕软件自动编写R程序,自动摘录结果制表,直接输出需要用到的图表结果,点击查看结果。就是这么简单!
06
PSM小结(来自易侕学院)
1、可用于观察性研究
队列研究设计,分组变量是暴露因素X
病例对照研究设计,分组变量是结局指标Y
2、用于配对的变量
通常匹配性别、年龄、结合各指标临床意义匹配
果匹配变量和X密切相关,存在假阴性的偏性,如果依然是阳性发现,表明X对Y作用强
3、做敏感性分析:PSM和原始队列都做分析
4、易侕软件基于R语言的PSM优势
可以灵活设置匹配比例(1:n),更加符合临床研究设计要求
在计算倾向性评分时,可以实现连续变量的曲线拟合(GAM模型),更加精准拟合X和Y的关系
采用智能化的优先顺序进行匹配,尽可能最大限定地为每个病例找到对照。
5、PSM好处:提高论文证据力度,控制混杂、防止偏性
END
文 | Angel