LiteSeg
所提出的编码器包含一个骨干网络架构,该架构充当用于特征提取的图像分类架构。 选择这些架构是为了满足我们的性能标准,因此我们使用不同的三个轻量级模型 MobileNet、ShuffleNet 和 Darknet19 测试了该架构。 所提出的骨干网络配置为 MobileNetV2 和 ShuffleNet 的输出步长为 32,Darknet19 的输出步长为 16,以实现精度和速度之间的不同权衡。 在这里,提出了一种新的更深版本的 ASPP 模块(称为 Deeper Atrous Spatial Pyramid Pooling (DASPP))通过在 3 × 3 atrous 卷积之后添加标准的 3 × 3 卷积来细化特征并融合输入和输出 ,通过短残差连接的 DASPP 模块。
PP-LiteSeg
灵活轻量级解码器(FLD)+统一注意力融合模块(UAFM)+简单金字塔池模块(SPPM)
UAFM:
统一的注意力融合模块(UAFM),该模块利用通道和空间注意力来丰富融合的特征表示。
如图4(a)所示,UAFM利用一个注意力模块来产生权重α,并通过MUL和ADD操作将输入特征与α融合。 详细地,输入特征表示为和。 是较深模块的输出,是来自编码器的对应物。 请注意,它们有相同的通道。 UAFM首先利用双线性插值运算将上采样到相同大小的,而上采样的特征表示为。 然后,注意力模块以和为输入,产生权重α。 注意,注意力模块可以是一个插件,如空间注意力模块、通道注意力模块等。之后,为了获得注意力加权特征,我们分别对和应用逐元素MUL操作。 最后,UAFM对注意力加权特征进行元素相加,并输出融合后的特征。 我们可以将上述过程表述为等式1。
SPPM
如图5所示,我们提出了一个简单的金字塔池模块(SPPM)。 它首先利用金字塔池模块来融合输入特性。 金字塔池模块有三个全局平均池操作,池大小分别为1×1、2×2和4×4。 然后,输出特征之后是卷积和上采样操作。 对于卷积运算,核大小为1×1,输出通道小于输入通道。 最后,我们添加这些上采样的特征,并应用卷积运算来产生精化的特征。 与原PPM相比,SPPM减少了中间通道和输出通道,消除了捷径,并用加法操作代替了串联操作。 因此,SPPM更有效,适合于实时模型。
STDC
为了丰富特征信息,我们通过跳过路径将x1到xn特征映射串联起来作为STDC模块的输出。在级联之前,通过3×3池大小的平均池操作,将STDC模块中不同块的响应映射下采样到相同的空间大小。