目的:比较放射组学分析(RA)和卷积神经网络(CNN)对放射科医师在多参数乳腺MRI中将造影剂增强病变分类为良性或恶性的诊断性能。
材料和方法:2011年8月至2015年8月,447例患者共1294个增强病灶(787个恶性,507个良性;中值大小为15 mm ±20)。病灶由一名乳腺放射科医师手动分割。通过使用L1正则化和主成分分析进行RA。CNN使用了34层的深度残差神经网络。所有算法还在一半数量的病灶上重新训练(n=647)。将机器判读与三位乳腺放射科医师的前瞻性判读进行比较。参考标准为组织学分析或随访。受试者工作曲线下面积(AUC)用于比较诊断性能。
结果:在全队列上训练的CNN优于在半队列上训练的CNN(AUC分别为0.88和0.83;P=.01),但RA和L1正则化没有差异(AUC分别为0.81和0.80;P=.76)或RA和主成分分析(AUC分别为0.78和0.78;P=.93)。通过使用完整队列,CNN性能(AUC,0.88;95%可信区间:0.86,0.89)优于RA和L1正则化(AUC,0.81;95%置信区间:0.79,0.83;P<.001)和RA及主成分分析(AUC,0.78;95%置信区间:0.76,0.80;P<.001)。然而,CNN不如乳腺放射学家的解释(AUC,0.98;95%置信区间:0.96,0.99;P<.001)。
结论:在多参数乳腺MRI中,卷积神经网络对乳腺强化病变的良恶性分类优于放射组学分析。两种方法都不如放射科医师的表现;然而,更多的训练数据会进一步提高卷积神经网络的性能,但不会提高放射组学算法的性能。
MRI是诊断和筛查乳腺癌的有力工具[1]。然而, M 由于提供这种方法的站点有限,乳腺MRI的广泛使用受到了限制。提供有限服务的一个主要原因是缺乏可以在解释乳腺Mr图像方面具有丰富的专业知识的放射科医生。
复杂的机器学习方法有望补充人类诊断(2)。从广义上讲,机器学习可以分为两大类:一类是放射组学分析(RA),提取手工制作的图像特征;另一个是卷积神经网络(CNN)的概念,在该概念中,计算机通常基于一组已标记的训练示例来自行学习识别图像特征。尽管在不同的领域,这两种方法在图像解释方面都取得了相当大的成功:在诊断放射学领域,RA已成功用于进一步分类肿瘤类型(3,4)。然而,细胞神经网络在达到临床上有用的性能之前需要更大的训练图像池。
在放射学中,乳房成像,特别是乳房摄影筛查,有助于与CNN一起使用,因为类似的大数据集是可用的(5,6)。有了这么大的乳房摄影数据集,随着计算能力的提高,深度学习可能有潜力超越常规的计算机辅助诊断系统来进行乳房摄影解释(5)。
关于使用RA或CNNs对造影剂增强的乳腺病变进行诊断分类(即良性与恶性病变的鉴别诊断)的研究有限。Bickelhaupt等人(7)使用机器学习来进一步表征在数字乳房摄影图像上发现的可疑癌症病变,并为此使用未增强和扩散加权MRI。然而,使用RA或CNNs对常规、临床、动态造影剂增强或多参数乳腺MRI中观察到的增强病变进行分类尚未建立。
因为乳房MRI比乳房摄影筛查进行得少,所以可用的乳房MRI数据集较小而不是当前用于CNN分析医学(和非医学)图像的数据集。考虑到这一点,以及动态对比增强MRI与数字乳腺摄影(例如)相比更复杂的性质,我们有兴趣通过使用临床环境中可获得的MRI数据集体积来了解CNNs与RA相比的表现。
因此,我们研究的目的是确定三种不同的机器学习算法(放射组学分析的两种变体,L1正则化和主成分分析,以及卷积神经元网络)的性能,并与放射科医师在多参数动态对比增强MRI中对增强病变进行分类的性能进行比较。
材料和方法
获得了当地机构审查委员会的批准。患者提供书面知情同意书,以便对其影像数据进行分析。
我们的研究评估了2011年8月至2015年8月期间进行的乳腺MRI检查,并由学术乳腺中心的放射科医师进行前瞻性解释。
为了生成分析队列,我们首先从我们的图像存档和通信系统中选择了2011年8月至2015年8月期间在我们科室接受乳腺MRI检查的患者。该搜索获得了5687例乳腺MRI检查。从这个队列中,我们随机检索了1000名患者。然后,我们排除了不符合以下标准的乳腺MRI研究:(a)未表现出增强病变或其他(B)最终诊断未验证或其他(C)无法明确划分为二元分类类别(即良性或恶性)的乳腺MRI研究(图1)。通过组织病理学分析(MRI将所有病变归类为乳腺影像报告和数据系统[BIRADS]第4、5或6类)或至少24个月的无异常MRI(对于MRI分类为BI-RADS 2或3类的所有病变)随访进行验证 。为了提供明确的诊断事实(无论是恶性还是良性),我们排除了边缘性(即高风险)病变的患者。
为了避免在同一患者中进行重复观察,以免由于病变间的相关性而混淆结果,在具有多个相同类型的增强病变(例如,多中心癌或多发性纤维腺瘤)的患者中,我们每个乳腺仅包括一种类型的增强病变(例如,仅一种浸润性癌)。
将所有算法的数据分为训练、验证和分析数据,以患者的方式进行,在外环中进行10倍交叉验证,在内环中进行5倍交叉验证,分别将72%/18%/10%的数据分为独立的训练集、验证集和分析集。外环中的10次折叠中的每一次都会产生一个评分,该分数表示算法为10%的病变分配的恶性概率。因为文件夹之间的分析集是不相交的,并且它们的联合覆盖了整个集合,所以我们得到了所有病变的评分。拆分的更详细描述附录E1(在线)中提供了流程。
根据先前公布的标准化方案(8),进行了多参数对比增强双侧乳腺MRI。简而言之,该方案由轴向双侧T2加权快速自旋回波和轴向双侧动态序列组成,该动态序列由五个动态阶段(造影剂给药前的一个阶段和造影后的四个阶段)组成,无脂肪抑制。在所有造影后阶段进行图像减影。乳腺MRI研究由三个不同的读者(D.T.、 S.S.和C.K.,在解释乳腺MRI研究方面具有7至25年的经验)以大致相同的比例进行前瞻性解释。除了通常的整体BI-RADS分类外,MRI报告还在每个病变的基础上列出了BI-RADS类别,以促进不同乳腺成像模式中特定病变管理的交流。
所有计算均在配备英特尔酷睿i7–7700K处理器(英特尔,加利福尼亚州圣克拉拉)和NVIDIA®GTX 1080 Ti GPU(NVIDIA®,加利福尼亚州圣克拉拉)的台式计算机上执行。除非另有说明,代码实现是基于Python 3.6.5(https://www.python.org)和软件模块NumPy、 SciPy和SkLearn(9)的内部开发。
病变由一名乳腺放射科医师(S.S.,具有15年解释乳腺MRI研究的经验)手动分割。为了进行分割,放射科医师首先查看所有图像,以确定最适合查看病变边界的图像。在减影图像上(在没有运动的情况下)或在非减影源图像上(在由于运动而存在减影误差的情况下)执行分割。在逐段的基础上分割病变,直到捕获完整的病变体积并获得三维病变体积。接下来,感兴趣的区域被传播到所有剩余的序列,在这些序列上病变没有被直接分割。为了确保患者之间图像信号强度的可比性,使用N4ITK(10)对所有图像进行偏置场校正,并将图像强度重新缩放到0–511的固定范围。
对于每个病变,通过使用Pyradiomics(11)工具箱提取统计、形状和纹理特征。通过19个统计特征量化病变内的图像强度分布。提取的纹理特征在灰度共生矩阵(27个特征)、灰度游程长度矩阵(16个特征)和灰度尺寸区域矩阵(16个特征)上计算。分别为T2加权图像、第一次(对比前)动态采集的减影图像和四次对比后动态采集的减影图像提取统计特征和纹理特征,得到总共133个统计特征和413个纹理特征。总之,在分割掩模的基础上,提取16个形状特征来评估病变的空间属性。所有图像特征的详细定义可在网上找 到(http://pyradiomics.readthedocs.io/en/latest/features.HTML)。
为了选择一个合适的特征子集,既限制规模和不相关,以下两种不同的特征选择策略进行了评估:(a)L1正则化:通过线性分类器的L1正则化隐式地选择特征。L1正则化使得线性模型的系数具有稀疏解,导致模型中所选特征的子集很小;以及(B)主成分分析,其中100个特征的子集是基于它们在区分训练集中的恶性和良性病变的能力来选择的(即,通过表现出最低的p值),随后,对这些特征进行主成分分析,并将得到的前10个主成分用作输入。附录E1(在线) 以及表E1和E2(在线)中提供了有关特征选择策略以及硬件和软件使用的详细信息。
我们使用了之前描述的网络架构(12)。简而言之,深度残差神经网络(ResNet18)(13)在日常物体(14)的14,000,000张彩色照片的数据集上进行预训练,以使深层对潜在相关的结构信息(如边缘和线条)敏感。附录E1(在线)中提供了网络架构的详细信息。通过使用随机旋转和翻转进行数据增强。我们使用随机梯度下降的动量为0.9,衰减学习率开始于0.001(每七个时期减少0.05倍)。
因为网络是在彩色图像上预先训练的,所以它期望三个输入通道。为了确定7个可用序列中的哪个子集应该被输入,测试了所有35个可能的三个组合。
统计分析
对于样本量的计算,我们使用了一项关于RA的研究(7)的结果,对未增强乳腺MRI图像中发现的病变进行分类。在该研究中,总共包括127个病变,曲线下面积(AUC)为0.85。为了在α误差为0.05和β误差为0.2的情况下检测AUC改善0.05,对于良性和恶性病变患者的同等分配,至少702个病变的样本量被认为是必要的(15)。然而,因为我们处理的是对比增强乳腺MRI,并且打算使用CNN而不是单独使用RA,所以我们计划包括至少1000个增强病变。
为了比较算法和放射科医师读数的准确性,在最小度量的截止值的基础上计算各自的敏感性和特异性值m =(12灵敏度)2 +(1-特异性)2(图2,3)。基于算法的给定数值和相应的BI-RADS类别,计算相应的受试者工作特征的AUC。对于后者,BI-RADS类别4-6被认为是测试阳性,其余的被认为是测试阴性。
为了评估对基础数据集大小的依赖性,RA的两种变体(主成分分析和L1正则化)和CNNs在一半大小的数据集(447名患者中的224名和1294个病变中的647个,其中393个病变为恶性)上重新训练,并重新分析AUC。像以前一样进行交叉验证的拆分。
如Litjens等人(16)(图E1[在线])所述,通过使用100000倍重采样的Bootstrap分析计算标准偏差和置信区间。根据Bonferroni(17),算法之间两两比较的显著性水平设置为0.05/6,以调整六个两两比较。
敏感性和特异性的置信区间计算基于二项分布的正态近似。
由于大多数大于2 cm的增强病变是恶性的,因此对小于2 cm的病变进行了额外的敏感性分析(n=823)。
结果
最终的分析队列包括447名患者的双侧乳腺MRI数据集(平均年龄66.0岁±10.3[标准差];年龄范围为26.7-82.0岁),接受MRI检查的适应症详见图1;患者人口统计资料如表1所示。
共识别并分割1294个增强病灶,其中良性病灶507个(39.2%),恶性病灶787个(60.8%),平均每个乳腺产生1.4个不同类型的增强病灶。病变类型的描述见表2。所有强化病灶的平均大小为15mm±20; 恶性病变,19mm±22;浸润性癌,16mm±15;导管原位癌,34mm±29。良性 病 变 的 平 均 大 小 为11mm±13(图E2[在线])。
通过L1正则化的RA得到47个相关图像特征的较小子集。其中,六个是从T2加权图像导出的纹理和统计特征,一个是形状特征(球度),而其余的 39个特征是基于动态序列的纹理和统计特征。即使在惩罚冗余特征的使用之后,对于减影图像中的像素强度的平均绝对偏差、鲁棒平均绝对偏差和四分位间距范围,也发现了最高的特征间相关性,这或多或少地表明了肿瘤增强的不均匀性。在早期和晚期图像的增强程度中发现了类似的块,提供了关于增强动力学的信息。RA和主成分分析的选择特征在性质上相似(两种放射组学方法的详细信息见附录E1[在线])。
表3中提供了AUC,灵敏度,特异性和相应的95%置信区间。
CNN的训练用了1350秒。根据包含病变的切片数量,单个病变的预测时间从66毫秒到528毫秒不等。在输入CNN的三个输入通道的7个可能的图像中,提供最好结果的序列是预反差和第一、第三个后反差动态序列。
乳腺放射科医师的读数得出的AUC为0.98±0.01.图4-6和图E3(在线)显示了正确和错误分类的乳腺病变的示例图像。被放射科医师的读数归类为假阴性结果的三个恶性病变中,没有一个被三个计算机算法中的任何一个正确识别。
两种不同的RA方法的AUC无统计学显著差异(P=.04),RA采用L1正则化(AUC,0.81),RA采用主成分分析(AUC, 0.78)。CNN的AUC(AUC,0.88)显著高于两种RA方法(两种比较,P,.001),但仍显著低于人类读者(AUC,0.98;P,001)(表3;图2a,3)。
当将分析限制到小于2cm的病变时,观察到基本上相同的结果(图2B)。
对于采用L1正则化的RA和采用主成分分析的RA,与完全训练队列相比,将训练损伤数量减半并不会导致AUC的显著差异 (对于半规模与全规模队列的训练,RA和L1正则化P=0.05,[AUC,0.80];RA 和 主 成 分 分 析P=0.06,[AUC,0.78])。对于CNN来说,当半规模和全规模队列训练相比时,AUC显著不同(AUC,0.83;P=.01)。
讨论
我们对乳腺MRI研究的分析证实,存在编码病变恶性的放射学特征,可通过RA和深度学习算法提取。然而,尽管努力调整两种放射组学方法(L1正则化或主成分分析),但放射组学诊断准确性低于CNN,L1正则化或主成分分析的AUC分别为0.78和0.81,而CNN的AUC为0.88(两种比较的P值均为.001)。尽管RA和CNN的诊断准确性可以被认为在临床可接受的范围内(18-21),但它们都远远不能与乳腺放射科医师的表现相匹配,后者的AUC为0.98。还应当注意,机器学习算法的诊断性能指的是由放射科医师识别的病变的分类;因此,算法的计算灵敏度反映了它们将预先确定的恶性病变正确分类为恶性病变的性能,但不包括它们在发现或检测恶性病变方面的性能。
我们的结果表明,CNNs似乎是对增强病变进行分类的更有发展前景的候选者:尽管在扩大可用的训练数据集后,两种RA方法的性能都没有改善,但在半尺寸队列与全尺寸队列训练后观察到相似的AUC(L1分别为0.80和0.81),CNN算法的AUC确实从0.83显著提高到0.88。这意味着RA表现出其可达到精度的所谓饱和曲线; 一组固定的手工放射学特征所包含的信息量可能无法区分恶性和良性乳腺病变之间更细微的差异。然而,卷积神经网络由于其更复杂和易于扩展的结构,可能能够模仿放射科医生解释MR图像时发生的难以捉摸和潜意识的过程。
因此,有理由假设在我们的CNN模型中包括甚至更多的数据,和/或更复杂的数据增强方法,例如生成对抗性神经网络(22),将进一步改善我们的CNN模型的结果。
我们的结果在与医学成像的其他领域进行比较时是可信的,例如皮肤病变的解释,其中CNNs已经达到了使用RA无法达到的诊断准确性水平(23)。在放射学领域,Kooi等人(5)证明,在筛查乳房X线照片的大数据集上训练的卷积神经网络优于最先进的计算机辅助检测软件(即使用RA原理的算法)。在我们的研究中,相对较低的病例数足以实现相对较高的CNNs诊断准确性。这可能是因为我们使用了由经验丰富的乳腺放射科医师提供的高质量注释数据进行培训。
在我们的队列中,乳腺放射科医师所达到的诊断准确性反映了乳腺MRI报告的诊断准确性范围的上限,这部分是因为我们研究的是一个恶性病变发病率高的人工队列。很明显,诊断的准确性水平将随着乳腺癌的高患病率而变化(即更高)。在我们的研究中,放射科医师的诊断准确性相对较高的另一个原因是,我们的部门收到了大量的乳腺MRI转诊,因此这些读者在解释乳腺MR图像方面获得了丰富的经验。
我们的研究有几个局限性。首先,在我们的研究中,敏感性是指由放射科医师预先识别和分割的病变的正确分类。第二,我们的MR检查采用标准化协议,而不同机构的脉冲序列协议各不相同;因此,经训练的算法可能无法对来自其他采集协议的数据实现相同的精度。最后,通过使用生成对抗性网络(22)的高级数据增强可以帮助将网络结构调整为更合适的三维方法,以合并所有可用的成像序列,并且我们的算法仅使用所描述的三个子集。
总之,在多参数乳腺MRI增强病变的分类中,CNN优于放射组学算法。即使使用有限的训练数据集,用CNN实现的诊断准确性似乎也达到了临床可接受的水平。尽管CNN不如乳腺放射科医师,但随着未来更多更大数据集的出现,CNN方法可能有潜力提高其性能。