卷积神经网络(CNN)通过使用大规模外部样本已显示出单幅图像超分辨率(SISR)的显着改善。尽管它们基于外部数据集的出色表现,但它们无法在特定图像内利用内部信息。另一个问题是它们仅适用于受监管的数据的特定条件。例如,低分辨率(LR)图像应该是高分辨率(HR)图像中的“立方”降采样的无噪声图像。为了解决这两个问题,已经提出了零镜头超分辨率(ZSSR),用于灵活的内部学习。但是,它们需要数千次梯度更新,即推理时间长。在本文中,我们介绍了利用ZSSR进行零射超分辨率(MZSR)的元传输学习。准确地说,它基于找到适合内部学习的通用初始参数。因此,我们可以利用外部和内部信息,其中一个梯度更新可以产生相当可观的结果。 (参见图1)。使用我们的方法,网络可以快速适应给定的图像条件。在这方面,我们的方法可以在快速适应过程中应用于大范围的图像条件。
1.简介
SISR旨在从其对应的LR图像中找到合理的HR图像,这是低视力领域的一个长期存在的问题。近年来,CNN的巨大成功引起了研究界的关注,因此,许多基于CNN的SISR方法表现出了巨大的性能飞跃[15、17、21、47、2、45、36、20、12、13]。最近的大多数基于CNN的最新技术(SotA)都是基于大量外部训练数据集和具有已知降级模型(例如“双三次”下采样)的自我监督设置。令人印象深刻的是,与传统的大尺寸模型相比,最近的SotA CNN在无噪声的“三次”下采样条件下显示出显着的PSNR增益。但是,在现实情况下,当LR图像在下采样内核和噪声中具有遥远的统计信息时,由于域间隙,最近的方法会产生不良伪像并显示出较差的结果。而且,它们的参数数量和内存开销通常太大而无法在实际应用中使用。
此外,尺度和跨尺度的非局部自相似性是单个图像中信息的内部递归,是自然图像的先验之一。因此,它长期以来一直用于图像恢复任务,包括图像去噪[5,6]和超分辨率[24,14]。另外,通过隐式学习这样的先验来进一步提高网络性能,可以将非本地属性的强大映像先验嵌入到网络体系结构中[19、22、46]。另外,已经提出了一些学习内部分布的作品[34,32,33]。而且,已经有许多研究结合了外部和内部信息的优势来进行图像恢复[26、43、42、41]。
最近,ZSSR [34]被提出用于零镜头超分辨率,它基于零镜头设置来利用CNN的功能,但可以很容易地适应测试图像条件。有趣的是,ZSSR学习测试图像的内部非局部结构,即深度内部学习。因此,在某些复发率较高的地区,其性能优于基于外部的CNN。此外,ZSSR具有很高的灵活性,可以处理任何模糊内核,因此可以轻松适应测试图像的条件。
但是,ZSSR有一些限制。首先,它需要在测试时进行数千次反向传播梯度更新,这需要大量时间才能得到结果。而且,它不能完全利用大规模外部数据集,而是仅取决于内部结构和模式,而内部结构和模式缺少示例总数。最终,与基于外部的方法相比,这导致大多数区域中具有一般模式的结果较差。
另一方面,元学习或学习快速学习最近吸引了许多研究人员。元学习旨在解决一个问题,即与人类智能不同,人工智能很难通过几个示例来快速学习新概念。在这方面,元学习与一次性学习合并在一起,并且已经提出了使用这种方法的许多方法[35,39,38,28,25,8,10,18,37]。其中,与模型无关的元学习(MAML)[8]表现出了巨大的影响,通过学习模型的最佳初始状态显示了SotA的性能,从而使基础学习者可以在几步之内快速适应新任务。渐变步骤。 MAML使用梯度更新作为元学习器,并且同一作者分析了梯度下降可以近似任何学习算法[9]。此外,Sun等。 [37]已将MAML与传递学习联合使用,以利用大规模数据进行少量学习。
受上述工作和ZSSR的启发,我们提出了零核超分辨率(MZSR)的元传输学习,它与内核无关。我们发现,仅使用转移学习或从预训练的网络进行微调不会产生合理的结果。由于ZSSR仅具有元测试步骤,因此我们另外采用了
元训练步骤,以使模型快速适应新的模糊内核方案。此外,我们提前采用了转移学习来充分利用外部样本,从而进一步利用性能。尤其是,首先进行大规模合成数据集(“双三次”降级设置)的转移学习,以进行自然图像先验的外部学习。然后,元学习在学习任务级别的知识中扮演着重要的角色,而将不同的下采样内核作为不同的任务。在元测试步骤中,将进行简单的自我监督学习,以在几个渐变步骤中学习特定于图像的信息。结果,我们可以利用内部和外部信息。此外,通过利用ZSSR的优势,我们可以使用轻量级的网络,该网络可以灵活地适应LR图像的不同降解条件。此外,我们的方法比ZSSR快得多,也就是说,它可以在几个渐变步骤内快速适应新任务,而ZSSR需要数千次更新。
总之,我们的总体贡献是三方面的:
•我们提出了一种基于元转移学习的新颖训练方案,该方案学习了有效的初始权重,可在无人值守零射击的情况下快速适应新任务。
•通过使用外部和内部样本,可以利用内部和外部学习的优势。
•我们的方法快速,灵活,轻巧并且在元测试时不受监督,因此最终可以应用于实际场景。
2.相关工作
2.1。基于CNN的超分辨率
SISR基于以下图像降级模型:
IkLR =(IHR * k)↓s + n,(1)
其中IHR,IkLR,k,*,↓s和n分别表示HR,LR图像,模糊核,卷积,标度为s的抽取和白高斯噪声。值得注意的是,在现实世界的场景中可以发现各种退化的条件,其中各种未知的k,↓s和n。
近来,已经提出了许多基于CNN的网络来利用已知的下采样内核来超分辨LR图像[15、17、21、12、47、2、36、20、13]。它们在“双立方”下采样场景中表现出极佳的性能,但在非双立方情况下由于域间隙而受到影响。为了应对多个降解内核,已经提出了SRMD [44]。通过额外输入内核和噪声信息,SRMD在非双轨情况下的性能优于其他SISR方法。同样,IKC [11]已经被提出用于盲超分辨率。另一方面,提出了ZSSR [34]来学习CNN的图像特定内部结构,并且由于其灵活性,它已显示可以应用于现实世界中。
2.2。元学习
近年来,已经提出了多种元学习算法。它们可以分为三类。第一组是基于度量的方法[35、38、39],该方法是学习度量空间,在该度量空间中,在几个样本中学习是有效的。第二类是基于内存网络的方法[31、28、25],其中网络学习各种任务知识并很好地概括为看不见的任务。最后一组是基于优化的方法,其中梯度下降作为元学习器优化发挥作用[10,18,9,8]。其中,MAML [8]已对研究界产生了巨大影响,并提出了几种变体[27,37,3,30]。 MAML固有地需要二阶导数项,并且一阶算法也已在[27]中提出。另外,为了应对MAML训练的不稳定性,提出了MAML ++ [3]。而且,已经提出了嵌入式空间内的MAML [30]。在本文中,我们采用MAML方案快速适应零镜头超分辨率。
3.初步
在相关工作之后,我们介绍了带有符号的自我监督的零镜头超分辨率和元学习方案[34,8]。
零射超分辨率ZSSR [34]完全不受监督或自我监督。培训和测试两个阶段都在运行时进行。在训练阶段,使用所需的内核对测试图像ILR进行降采样,以生成表示为Ison的“ LR son”,并且ILR成为HR监督人员,即“ HR父亲”。然后,用单个图像生成的LR-HR对训练CNN。训练仅取决于测试图像,从而学习给定图像统计信息的特定内部信息。在测试阶段,经过训练的CNN然后用作前馈网络,并将测试输入图像馈送到CNN以获取超分辨图像ISR。
元学习元学习有两个阶段:元训练和元测试。我们考虑一个由θ参数化的模型fθ(·),它将输入x映射到输出y。元训练的目的是使模型能够适应大量不同的任务。从任务分布p(T)采样任务Ti以进行元训练。在任务中,训练样本用于优化具有特定于任务的损失LTi的基础学习者,而测试样本用于优化元学习者。在元测试阶段,模型fθ(·)借助元学习器快速适应新任务Tnew。 MAML [8]采用简单的梯度下降算法作为元学习器,并试图找到一个初始的可转移点,其中一些梯度更新会导致模型快速适应新任务。
在我们的例子中,输入x和输出y是IkLR和ISR。同样,不同的模糊内核构成任务分布,其中每个任务对应于由特定模糊内核降级的图像的超分辨率。
4.方法
我们提出的MZSR的总体方案如图2所示。如图所示,我们的方法包括三个步骤:大规模培训,元转移学习和元测试。
4.1。大规模培训
此步骤类似于用于对象识别的大规模ImageNet [7]预训练。在我们的案例中,我们采用DIV2K [1],它是高质量的数据集DH R。使用已知的“双三次”降级,我们首先合成了大量成对的数据集(IHR,Ibic),记为D。然后,LR训练了网络,以通过最大程度地减少损失来学习“双三次”降级模型的超分辨率,
LD(θ)= E bic [|| I -f(Ibic)|| ],(2)D〜(IHR,ILR)HRθLR 1
这是预测和地面真相之间的像素级L1损失[21,34]。
大规模培训在两个方面做出了贡献。首先,由于超分辨率任务具有相似的属性,因此有可能学习隐含地表示高分辨率图像的自然图像先验的有效表示,从而使网络易于学习。其次,由于已知MAML [8]显示出一些不稳定的训练,我们借助预先训练好的特征表示,简化了元学习的训练阶段。
4.2。元转移学习
由于ZSSR是使用梯度下降算法训练的,因此有可能在梯度下降算法的帮助下引入基于优化的元训练步骤,事实证明这是通用学习算法[9]。
在这一步中,我们寻求找到参数空间的敏感且可转移的初始点,其中一些梯度更新会导致性能大幅提高。受MAML启发,我们的算法主要遵循MAML,但有一些修改。
与MAML不同,我们在元训练和元测试中采用了不同的设置。特别是,我们将外部数据集用于元训练,而内部学习则用于元测试。这是因为我们希望我们的元学习者借助大规模外部数据集来更加关注与内核无关的属性。
我们合成用于元转移学习的数据集,称为Dmeta。 Dmeta由具有不同内核设置的对(IH R,I k)组成。具体来说,我们使用各向同性和各向异性高斯核作为模糊核。我们考虑一个内核分布p(k),其中每个内核由协方差矩阵Σ确定。它被选择为具有一个随机角Θ〜U [0,π],和两个随机特征值λ1〜U [1,2.5s],λ2〜U [1,λ1],其中s表示比例因子。精确地,协方差矩阵表示为
最终,我们基于Dmeta训练了元学习者。我们可以将Dmeta分为两类:Dtr用于任务级培训,Dte用于任务级测试。
在我们的方法中,相对于参数θ适应新任务Ti是一个或多个梯度下降更新。对于一个梯度更新,则新的自适应参数θi为
θ=θ-α∇Ltr(θ),(4)iθTi
其中α是任务级学习率。优化模型参数θ,以使Dmeta相对于θi的测试误差最小。具体而言,元目标是
使用等式执行元转移优化。 6,学习跨任务的知识。任何基于梯度的优化都可以用于元转移训练。对于随机梯度下降,参数更新规则表示为
其中β是元学习率。
4.3。元测试
元测试步骤恰好是零脉冲超分辨率。作为[34]中的证据,此步骤使我们的模型能够在单个图像中学习内部信息。对于给定的LR图像,我们使用相应的下采样内核对其进行下采样(对于盲场景,可以使用内核估计算法[24,29]),以生成Ison并使用一对“ LR儿子”和给定的图像。然后,我们将给定的LR图像输入模型,以获得超分辨图像。
4.4。算法
算法1演示了第4.1节和第4.2节中我们的元转移训练过程的过程。 3-7行是大规模的培训阶段。第11至14行是元转移学习的内部循环,在该循环中,基础学习者已更新为特定于任务的损失。第15-16行介绍了元学习器优化。
算法2提出了元测试步骤,即零分辨率超分辨率。在元测试中执行了一些梯度更新(n),并使用最终更新的参数获得了超分辨图像。
5.实验5.1。训练细节
对于CNN,我们采用简单的8层CNN体系结构,并遵循ZSSR [34]进行残差学习。它的参数数量为225K。对于元转移训练,我们将DIV2K [1]用于高质量数据集,并将整个训练设置为α= 0.01和β= 0.0001。对于内部循环,我们进行了5个梯度更新,即5个展开步骤,以获取自适应参数。我们提取了尺寸为64×64的训练补丁。为解决由于基础学习者展开过程而导致的梯度消失或爆炸问题,我们利用了每个步骤的加权损失总和,即对每次展开的额外损失进行监督步骤[3]。在开始时,除了最后展开步骤外,我们平均权衡损失并降低权重。最后,加权损失收敛到我们最终的训练任务损失。我们采用ADAM [16]优化器作为元优化器。由于二次采样过程(↓s)可以是直接方法[34]或双三次二次采样[44,11],因此我们针对不同的二次采样方法训练了两个模型:直接和双三次。
5.2。 “双三次”下采样的评估
我们用几种最近的SotA SISR方法评估我们的方法,包括在著名基准上的有监督和无监督的方法:Set5 [4],BSD100 [23]和Urban100 [14]。我们在YCbCr颜色空间的Y通道中测量PSNR和SSIM [40]。
总体结果如表1所示。经过“双曲线”下采样条件训练的CARN [2]和RCAN [45]表现出极其出色的性能。由于训练场景和测试场景完全匹配,因此对外部样本的监督可以提高CNN的性能。另一方面,ZSSR [34]和我们的方法在双三次插值方面表现出改进,但不如监督方法好,因为这两种方法都是在无监督或自我监督的范围内进行训练的。我们的方法仅在一个梯度下降更新中就显示出与ZSSR相当的结果。
5.3。对各种模糊内核的评估
在本节中,我们演示了各种模糊内核条件下的结果。我们假设四种情况:严重混叠,各向同性高斯,非各向同性高斯和各向同性高斯,随后进行三次三次抽样。准确地说,方法是
•g0d.2:各向同性的高斯模糊核,其宽度为λ= 0.2,然后进行直接子采样。
•g2d.0:各向同性高斯模糊核,其宽度为λ= 2.0,然后进行直接子采样。
•gd:各向异性高斯,宽度λ= 4.0,ani 1
式中λ2= 1.0,θ= -0.5 3,然后直接进行二次采样。
•g1b.3:各向同性的高斯模糊核,宽度为λ= 1.3,然后进行三次三次采样。
对于其他各向同性和各向异性高斯情况,我们的方法要比其他方法有明显的较大差距。在这些情况下,与双三次插值相比,其他方法可以提高性能,但是差异很小。在所有其他情况下,都可以发现类似的混叠情况趋势。有趣的是,与双三次插值相比,RCAN的结果略有改善。另外,由于训练和测试之间的条件是一致的,因此IKC的结果可比。我们的方法在双三次二次采样条件下也表现出了卓越的性能。从广泛的实验结果来看,我们认为MZSR是一种快速,灵活且准确的超分辨率方法。
5.4。实像超分辨率
为了显示提出的MZSR的有效性,我们还对真实图像进行了实验。由于没有真实图像的真实图像,因此我们仅提供视觉比较。由于页数的限制,对真实图像的所有比较均以补充材料的形式提供。
6.讨论
6.1。渐变更新数
为了进行消融研究,我们训练了几种具有不同配置的模型。我们评估了Set5上的平均PSNR结果,如图3所示。有趣的是,我们的方法的初始点显示了最差的性能,但是在一次迭代中,我们的方法迅速适应了图像条件,并在比较的情况下显示了最佳的性能。方法。其他方法有时会显示性能的缓慢提高。换句话说,它们不像
像我们一样灵活地适应新的图像条件。
我们在图4的起始点和一个梯度更新后可视化了结果。如图所示,MZSR的起始点的结果很奇怪,但是在一次迭代中,它得到了很大的改善。另一方面,预训练网络的结果比MZSR更自然,但是在一个梯度更新后其改善较小。此外,显示了我们的方法的性能随着梯度下降更新的进行而增加,尽管事实是在五个梯度步骤之后对方法进行了最大性能的训练。该结果表明,随着梯度更新迭代次数的增加,我们可能会期望更多的性能改进。
6.2。多尺度模型
我们还使用比例因子s∈[2.0,4.0]训练了一个多尺度模型。 ×2上的结果显示的结果与表3中所示的单尺度模型相比更差。在具有多个缩放因子的情况下,任务分布p(T)变得更加复杂,其中元学习者难以捕捉到这样的区域:适合快速适应。
此外,在对更大的比例因子进行元测试时,Ison的大小变得太小,无法为CNN提供足够的信息。因此,CNN很少利用来自非常小的LR子图像的信息。重要的是,随着我们的CNN了解CNN的内部信息,即使具有较大的缩放比例,这种具有多尺度循环模式的图像也显示出合理的结果,如图5所示。
6.3。复杂
我们评估整体模型和时间复杂度,进行几次比较,结果如表4所示。我们在NVIDIA Titan XP GPU的环境下测量时间。两个用于“双曲线”降级的全监督前馈网络,即CARN和RCAN,需要大量参数。尽管CARN被提议为一种轻量级的网络,与RCAN相比需要十分之一的参数,但与无人监督的网络相比,它仍然需要更多的参数。但是,这两个模型的时间消耗是相当可比的,因为仅涉及前馈计算。
另一方面,由于图像特定的CNN,完全不受监督的ZSSR需要的参数数量要少得多。然而,它需要成千上万次向前和向后通过以获得超分辨图像,即,超过实际程度的大量时间。我们的方法MZSR具有单个梯度更新,在比较中需要最短的时间。而且,即使向后遍历了10次迭代,我们的方法仍然显示出与CARN相当的时间消耗。
7.结论
在本文中,我们通过利用内部和外部样本,提出了一种快速,灵活,轻量级的自监督超分辨率方法。具体来说,我们结合转移学习采用基于优化的元学习方法,以寻找对模糊核的不同条件敏感的初始点。因此,我们的方法可以在几个梯度更新内快速适应特定的图像条件。通过广泛的实验,我们证明了我们的MZSR优于其他方法,包括ZSSR,后者需要进行数千次梯度下降迭代。此外,我们通过复杂度评估证明了我们方法的有效性。但是,我们的工作还有很多部分可以改进,例如网络体系结构,学习策略和多尺度模型,我们将其留作未来的工作。