A gene expression assay based on chronic lymphocytic leukemia activation in the microenvironment to predict progression
基于微环境中慢性淋巴细胞白血病激活的基因表达检测预测病情发展
发表期刊:Blood Adv
发表日期:2022 Nov 8
影响因子:7.637
DOI: 10.1182/bloodadvances.2022007508
一、研究背景
人们普遍认为,无症状且处于早期临床阶段的慢性淋巴细胞白血病(CLL)患者不需要治疗。然而,关于克隆演变风险的累积数据重新激发了对可能迅速进展的诊断患者进行早期治疗的兴趣。在这种情况下的预后,通常依赖于大量的实验室数值、细胞遗传学异常、基因突变或IGHV基因的突变状态。
基因表达谱和CLL患者的临床过程在各种研究中都有关联。然而基于基因表达谱的生物标志物有几个注意事项,使其不能广泛应用于CLL患者的预后。这些问题包括缺乏可重复性和标准化,以及生物信息学分析的复杂性。重要的是,聚类方法的预后价值受到限制,因为当不同的病人被纳入聚类过程时,个体的分配可能会有所不同,从而阻碍了这些方法的实时使用。
二、材料与方法
1、数据来源
1) 训练队列,使用了156个未经治疗的样本,其中119个来自Vall d'Hebron大学医院,37个来自萨拉曼卡大学
2) 使用来自德国海德堡德国癌症研究中心的一个独立患者队列的112个样本对该检测进行了验证
2、分析流程
1) 基因表达分析:在NanoString平台上,使用nCounter PrepStation的 "高灵敏度 "设置和nCounter数字分析仪的555视野,对250纳克RNA的基因表达进行了量化
2) 基因选择和模型建立的描述:从文献中选择的基因包括与慢性淋巴细胞白血病(CLL)细胞在微环境中的激活有关的基因,特别是那些在淋巴结和BCR刺激后的CLL细胞中差异表达的基因,CLL进展中细胞过程和相关途径的代表基因,以及其他对CLL有潜在预后意义的基因,如根据IGHV突变状态差异表达的基因;还包括一组特定的管家基因,用于对获得的数据进行逐个样本的标准化处理;对每个内源性基因进行了单变量Cox模型调整;使用22个管家基因的几何平均值进行RNA负载的归一化;在进一步的分析中,排除了那些表达水平达到或接近背景水平的基因,应用弹性网方法的回归惩罚模型被用来选择那些对解释首次治疗时间(TtFT)变量贡献最大的基因,最终选择了15个基因;在分析的22个看家基因中,也选择了15个看家基因,基于不同样本的低变异性,并在最终模型中用于归一化
3) 预测性基因表达得分:利用训练队列中的基因表达数据,使用惩罚性的Cox模型,为首次治疗时间(TtFT)制作一个简明的预测模型;为了评估从所选基因得到的多变量Cox模型的整体性能,计算了不同的诊断参数
三、实验结果
01 - 基于基因表达的预后模型的产生:CLL15测定
训练队列由156名先前未经治疗的CLL患者组成。该系列的中位年龄为66岁,57%的患者是男性。,37%的样本是在CLL诊断时获得的,而63%的样本是在任何CLL治疗前的患者随访中获得的。从CLL诊断到样本采集的中位时间为11.9个月。对TtFT的分析是从收集样本的日期到治疗开始的日期计算。92例(59%)为IGHV突变,54例(35%)为IGHV未突变,9例(6%)因多克隆、非生产性或双克隆重排而未确定。在1个病例中,没有获得IGHV突变的数据。
在训练队列的156个样本中,确定了178个感兴趣的基因和22个管家基因的数字基因表达。在154个(99%)样本中获得了足够的基因表达。排除了两个质量不足以进行表达测试的样本(1%)。
在单变量Cox回归分析中,76个基因的表达与TtFT明显相关(FDR<0.05),88个基因的FDR<0.1。共有46个基因(FDR<0.1)符合预先指定的纳入标准,并被选作进一步分析。其中,共有15个基因(MYC、ITGA4、CERS6、ZNF471、ZNF667、SEPT10P1、ZAP70、LTK、CCL3、CNR1、EGR2、TNF、IL4R、FGL2、PPBP)被最终选定为使用惩罚性Cox方法建立TtFT的预后模型。此外,根据其在样本中的低变异性,选择了15个管家基因。利用15个预测基因的表达量与15个看家基因的表达量进行归一化,建立了一个最终模型,命名为CLL15,以预测训练队列中的TtFT(图1)。
随后,建立了一个线性方程,包括15个基因的对数转换、归一化的基因表达水平乘以各自的回归系数,并对训练队列中的每个病人进行计算,以获得CLL15评分。该模型的C统计量为0.77。图2A显示了放宽连续变量的线性假设后CLL15评分与TtFT风险之间的关联形状。作为一个连续变量,CLL15检测得分与TtFT相关。为了更好地对进展风险进行分层,使用R partykit软件包确定了定义3个具有差异化结果(TtFT)的最佳阈值。低风险组(得分≤2.718,占队列的55%)的5年开始治疗的估计风险为30.5%。在中危组(得分≤3.535和>2.718,占队列的20%),5年的估计治疗风险为57.8%。最后,在高风险组(得分>3.535,占队列的25%)中,5年开始治疗的估计风险是93.4%(图2B)。值得注意的是,CLL15评分在早期临床阶段的患者亚组(n = 116)中表现出类似的预后能力,低、中、高风险组的5年估计治疗开始风险分别为18.2%、44.8%和79.54%(图2C)。
02 - CLL15评分的预后价值与IGHV突变状态和IPS-E CLL无关
本研究分析了CLL15检测获得的进展风险组与CLL中已知的生物预后因素之间的关系,包括FISH确定的最常见的染色体改变(del17p、del11q和12三体),流式细胞仪确定的ZAP-70和CD38的蛋白表达水平,TP53、NOTCH1、SF3B1和MYD88基因的突变,IGHV的突变状态,CLL-IPI,以及IPS-E CLL评分。在单变量分析中,一些因素,如SF3B1突变、IGHV状态、流式细胞术中ZAP-70和CD38的表达、临床分期(RAI和Binet)、CLL-IPI和IPS-E评分与TtFT有关(图3)。在最后的多变量分析中,CLL15评分、IPS-E CLL和Binet分期是唯一保持其独立统计学意义的因素(图3)。
作者随后探索了将IGHV的突变状态(突变/未突变)作为一个变量引入到表达模型中,并将其性能与之前仅有基因表达的模型进行比较。综合模型的C统计量为0.79,偏差分析显示,将IGHV状态加入到基因表达分数中(反之亦然)提供了重要的预测信息。根据这些结果,结合基因表达与IGHV变量的模型在预测TtFT方面比基因表达和IGHV本身的模型表现更好。在成对的多变量Cox模型中,两个变量、IGHV突变状态和根据基因表达模型分类的进展风险组都对预后有贡献(图2D)。
纳入CLL15评分也提高了IPS-E评分预测TtFT的能力。图4A显示,当CLL15评分与IPS-E评分或IGHV状态同时被纳入模型时,以C统计量计算的鉴别能力有所提高。此外,在成对的多变量Cox模型中,CLL-IPI和CLL15对训练队列中的TtFT也有独立贡献,单独的CLL-IPI的C统计量为0.73,组合的C统计量为0.81。然而,当包括IPS-E评分时,CLL-IPI的信息并没有改善模型。最后,CLL15评分,IGHV状态,和IPS-E评分都是改善TtFT预测的独立因素(图4B)。
03 - CLL15检测方法的验证和重现性
随后,CLL15检测方法在来自海德堡独立队列的112名患者的低温保存样本中得到验证。作为一个连续变量,CLL15评分与TtFT明显相关。图5A显示了验证队列中放宽线性假设后CLL15评分与TtFT风险之间的关联。使用训练队列中预先确定的截止点,该检测方法将22名(19.6%)患者分配到低风险组,42名(37.5%)分配到中度风险组,48名(42.9%)分配到高风险组。这3组呈现出不同的结果,低、中、高风险组60个月的估计治疗风险分别为16.5%、40%和58.1%(图5B)。
此外,正如在训练队列中观察到的,基因表达信息,无论是作为连续变量还是作为风险组,都是存在IGHV突变状态的独立预后因素。IGHV突变状态和基因表达模型的C统计量分别为0.6和0.63,而综合模型的C统计量为0.67。正如在训练队列中观察到的,通过结合CLL15评分和IGHV突变状态信息,确定了3个风险组(补充图3)。为了确定CLL15检测的可重复性,选择了9个样品,其分数分布在整个检测中(低风险、中度风险和高风险)。将每个样本的RNA在CLL15检测中运行,一式三份,每份在不同的NanoString试剂盒上运行。结果显示,三份样本的风险组分配100%一致,标准偏差为0.073分。
四、结论
CLL的生物学预后依赖于基因畸变和IGHV的突变状态的使用。不幸的是,基因表达谱的使用由于其技术上的困难和可重复性而一直很困难,排除了其在临床实践中的使用。使用较新的、可重复性更高的方法来评估基因表达,可以完善已确立的预后参数,评估CLL患者预后的整个生物学特征。本文介绍的研究成功地将以前描述的具有强大预后价值的基因表达特征转化为一种新的基于基因表达的检测方法,即CLL15,适用于常规诊断环境。