郑国焱教授团队下的基于不成对图片的MRI生成合成CT实验

摘要：通过MR图像生成合成CT有很多不同的方法。许多方法都依靠于同个病人的成对MR和CT图像，这些成对的图像是很难获取的。以前为了MR生成合成CT图像提出了2D循环生成对抗性网络，但是成果并不满意因为其图像的空间不连续性。我们还尝试开发用于图像迁移的3D循环GAN（3D-cGAN），但是其训练需要大量数据，这些数据可能并不总是可用。在本文中，我们介绍了两种新颖的机制来解决上述问题。首先，本文提出混合GAN（hGAN）包含了一个3D生成网络和一个2D判别器用于不成对数据的MR生成合成CT。我们使用3D全卷积网络来形成生成器，该生成器可以更好地对3D空间信息进行建模，从而可以解决切片之间的不连续性问题。其次，我们将2D-cGAN生成的结果作为弱标签，将其与对抗训练策略一起使用，以鼓励生成器的3D输出尽可能看起来像一堆真实的CT切片。实验结果表明，当可获得有限数量的未配对数据时，我们的方法比最新技术获得了更好的结果。

关键词：深度学习，CT合成，MR。生成对抗性网络

1 简介

已经提出了许多不同的方法来从MR图像生成合成CT 。这些方法大多数都依赖于难以获得的同一患者的成对对齐的MR和CT训练图像。对齐MR和CT图像时出现任何错误都可能导致生成sCT时出现错误。受[14]的启发，Wolterink等人。文献[5]介绍了一种使用周期一致的生成对抗网络（2D-cGAN）自动进行MR到CT合成的2D方法，无需配对训练数据即可进行训练。 2D-cGAN生成的结果在用于训练的视图上看起来不错，但是当2D-cGAN生成的图像用于构建3D体积时，会观察到空间不一致。已经尝试开发用于图像翻译的3D循环GAN（3D-cGAN）[10,15]，但是其训练需要大量数据，这些数据可能并不总是可用。例如，张等人。 [16]使用数据集的MRI和CT模式的4,496心血管3D图像，而Pan等。 [15]拍摄了1457张MR图像和649张PET图像。相反，Wolterink等。 [5]仅使用24例患者的脑部MR和CT图像来训练其2D-cGAN。

在本文中，介绍了两种新颖的机制来解决上述问题。首先，介绍了一种混合GAN（hGAN），它由3D生成器网络和2D鉴别器网络组成，用于使用不成对的数据进行深层MR至CT合成。我们使用3D全卷积网络来形成生成器，该生成器可以更好地对3D空间信息进行建模，从而可以解决切片之间的不连续性问题。其次，我们将2D-cGAN生成的结果作为弱标签，将其与对抗训练策略一起使用，以鼓励生成器的3D输出尽可能看起来像一堆真实的CT切片。我们选择使用2D判别器网络而不是3D鉴别器的原因是基于以下观察。由于迁移到3D导致GPU内存限制，因此3D判别器网络取决于块处理，其中采样的块仅包含数据的本地视图，缺少全局上下文。另外，与2D判别器网络相比，3D判别器网络具有更多的参数要学习。因此，其训练需要大量数据，如[10,15]所示。相反，二维判别器网络将完整的切片作为输入，这些切片具有数据的全局视图。如文献[5]所示，其训练需要的数据量要少得多。

2 方法

hGAN概述。假设我们有一组未配对的数据，其中包含 $\left\{X^i \right\} _{i=1}^N$ 个MR图像和 $\left\{Y^j \right\} _{j=1}^M$ 个CT图像，我们首先沿轴视图提取切片以训练2D-cGAN。之后，对于每个MR图片 $X^i$ ，将有一个sCT图像，可以是用作弱标签 $\tilde{Y} ^i$ 。如图1所示，我们的hGAN由3D生成器网络G和2D鉴别器网络D组成。3D生成器网络G具有3D完全卷积网络（FCN）架构，可以直接将输入MR体积映射到sCT体积在训练过程中，3D发电机以弱监督的方式被排水。具体来说，我们从MR体积 $X^i$ 和相应的弱标记体积 $\tilde{Y} ^i$ 中沿轴向观察，随机抽取了K个连续切片，这些弱标签体积是根据从受训练的2D-cGAN获得的结果构建的，将其作为3D块将 $P_{x}^i$ 和 $\tilde{P}_{y}^i$ 分别输入到3D生成器网络（即，在训练3D生成器网络时，我们将批大小选择为1）。通过在预测G（ $P_{x}^i$ ）和弱标签 $\tilde{P}_{y}^i$ 之间的重构L1损失来优化3D生成器。 3D生成器的输出将转换为一批2D K切片 $\left\{ \hat{s} _{y}^k \right\} _{k=1}^K$ （3D到2D转换），然后将与K切片 $\left\{ {s} _{y}^k \right\} _{k=1}^K$ 一起使用从不成对的真实CT数据 $Y^j$ 作为输入来训练2D鉴别器网络D（即，当训练2D鉴别器网络时，批大小选择为K），以便区分输入是真实的还是假的。对抗性损失会鼓励发生器的3D输出尽可能看起来像一堆真实的CT切片。

网络结构。如图1所示，3D生成器网络遵循编码和解码结构。编码路径由四个卷积层组成（分别具有32、32、64和128个通道）。它们每个都紧随其后的是实例规范化（IN）和ReLU层。然后，编码器路径与6个剩余块连接。每个残差块由2个卷积层组成，而第一个卷积层后面是IN和ReLU层，第二个卷积层后面仅是IN层。最后，解码路径由2个扩展块（分别具有64和32个通道），Conv层和Tanh输出层组成。每个放大块由最近邻插值层，IN和ReLU层组成。 2D鉴别器网络D包含5个卷积层（分别具有32、64、128、256和1个通道）。 D中的所有卷积层后跟一个IN和一个LeakyReLU（泄漏= 0.2）层，最后一个输出层除外。 3D生成器网络中所有卷积的内核大小均为3×3×3，而2D鉴别器网络中所有卷积的内核大小均为4×4。

图1

拟议的hGAN用于使用未配对数据进行MR到CT合成的示意图。 hGAN由3D生成器网络和2D鉴别器网络组成。通过使用从2D-cGAN生成的配对sCT图像作为弱标签，以弱监督的方式训练3D生成器。 2D鉴别器会限制发生器的3D输出，使其看起来尽可能像一堆真实的CT切片。生成器和鉴别器中每个块下面的数字是通道号。 “ s = 2”表示步长在卷积层中为2，而“ u = 2”表示放大2倍。

网络体系结构。如图1所示，3D生成器网络遵循编码和解码结构。编码路径由四个卷积层组成（分别具有32、32、64和128个通道）。它们每个都紧随其后的是实例规范化（IN）和ReLU层。然后，编码器路径与6个剩余块连接。每个残差块由2个卷积层组成，而第一个卷积层后面是IN和ReLU层，第二个卷积层后面仅是IN层。最后，解码路径由2个扩展块（分别具有64和32个通道），Conv层和Tanh输出层组成。每个放大块由最近邻插值层，IN和ReLU层组成。 2D鉴别器网络D包含5个卷积层（分别具有32、64、128、256和1个通道）。 D中的所有卷积层后跟一个IN和一个LeakyReLU（泄漏= 0.2）层，最后一个输出层除外。 3D生成器网络中所有卷积的内核大小均为3×3×3，而2D鉴别器网络中所有卷积的内核大小均为4×4。

“ReLU函数是目前神经网络里常用的激活函数，由于ReLU函数是线性特点使其收敛速度比Sigmoid、Tanh更快，而且没有梯度饱和的情况出现。计算更加高效，相比于Sigmoid、Tanh函数，只需要一个阈值就可以得到激活值，不需要对输入归一化来防止达到饱和。ReLU函数是目前神经网络里常用的激活函数，由于ReLU函数是线性特点使其收敛速度比Sigmoid、Tanh更快，而且没有梯度饱和的情况出现。计算更加高效，相比于Sigmoid、Tanh函数，只需要一个阈值就可以得到激活值，不需要对输入归一化来防止达到饱和。”

实验细节： hGAN是在使用3.6GHz Intel i7 CPU和具有11GB GPU内存的GTX 1080 Ti图形卡的台式机上使用TensorFlow框架在python中实现的。我们首先训练了带有轴向平面切片的2DcGAN，以获取弱图像标签。所有实验设置与使用[14]相同。然后开始训练GAN。在训练过程中，包含K = 32切片的大量裁剪补丁关联了数据。我们从头训练了hGAN。从截断正态分布（μ= 0，σ= 0.02）初始化所有参数，然后通过Adam算法进行更新。我们对网络进行了总共200次培训。最初的学习速度为5×10−4，在最初的100次练习中保持不变。在接下来的100个时期中，线性衰减为0。在第一个和第二个100个时期中，等式2中的λ分别设置为0和5。这意味着仅在前100个时间段通过L1损耗对网络进行了优化。在测试阶段，我们将整个MR图像馈入了神经网络。继沃尔特林克等。 [5]，我们使用平均绝对误差（MAE）和峰值信噪比（PSNR）作为评估指标。请注意，由于使用了不同的CT HU范围，因此很难比较不同论文中报告的MAE和PSNR结果。例如，在[5]中CT图像的HU范围为[-600，1400]，而在本文中，CT图像的HU范围为[-1024,2253]。因此，我们还采用相对MAE作为新的评估指标，定义为MAE值除以地面真实CT的HU值范围。

3实验结果

通过标准的2倍交叉验证研究设置，当使用未配对数据时，我们将建议的方法与最新方法进行了比较：2D-cGAN [14]和3D-cGAN [10]。对于2D-cGAN，我们通过运行原始作者的官方代码获得了结果，并保持与论文中相同的参数。对于3D-cGAN，我们自己实现了它，网络架构如图2所示，它是2D-cGAN的扩展。由于3D-cGAN的大小，我们使用256×288×16的固定补丁大小来训练3D-cGAN。结果示于表1，证明了所提出方法的有效性。我们提出的hGAN在所有指标上均优于2D-cGAN和3D-cGAN，并且报告的MAE为75.04 HU，平均PSNR为25.69，相对MAE为2.29％。尽管[5]中介绍的方法报告的MAE为73.7 HU，平均PSNR为32.3，但它们的相对MAE为3.69％，比我们的方法大，表明性能比我们的方法低。

图3直观地比较了用不同方法生成的sCT。我们可以观察到，提出的hGAN在空间一致性和平滑度方面显示出更好的结果。此外，与2D-cGAN和3D-cGAN相比，拟议的hGAN的结果在细节上更接近地面真实性。对于2D-cGAN，这是由空间不一致引起的，而对于3D-cGAN，它可能需要更多数据才能进行概括。

消融研究。为了研究hGAN中不同鉴别器的影响，我们进行了一项比较研究，比较了我们方法的三种变体的性能：（a）不使用任何鉴别器网络；（b）使用我们建议的2D鉴别器网络；（c）使用3D鉴别器网络。在这项研究中，我们随机选择25个受试者的数据作为训练数据，其余25个受试者的数据作为测试数据。结果示于图4。在不使用任何鉴别器的情况下，使用从2D-cGAN生成的纯弱标签训练了3D生成器网络。获得的MAE为81.66。借助2D鉴别器网络，它改进到74.82。但是，当使用3D鉴别器时，与不使用鉴别器的情况相比，MAE有所增加。研究表明，当只有有限的未配对数据可用时，很难训练3D鉴别器，最好使用2D鉴别器以提高性能。

4 讨论

总而言之，我们提出了由3D生成器网络和2D鉴别器网络组成的混合生成对抗网络，以解决只有有限数量的未配对数据可用时从MR图像生成合成CT图像的问题。 3D卷积网络形成了更好的3D空间信息模型生成器，并解决了切片之间的不连续性问题。由于GPU内存的限制，以及由于3D鉴别器网络需要设置更多参数，因此我们选择在GAN中使用2D鉴别器网络。

我们的结果表明，当只有有限数量的未配对数据可用时，当前的方法达到了比最新技术更好的效果。

MICCAI2019 -Hybrid Generative Adversarial Networks for Deep MR to CT Synthesis Using Unpaired Data

MICCAI2019 -Hybrid Generative Adversarial Networks for Deep MR to CT Synthesis Using Unpaired Data

1 简介

2 方法

3实验结果

4 讨论