新闻资讯

甚高空间分辨率遥感图像语义分割的空间和通道注意力融合新方法

一、简介

遥感图像的语义分割对于分析土地覆盖和土地利用至关重要,尤其是评估农村和城市环境中的人类化影响以及管理自然灾害[ 1 ] - [ 6 ]。传统方法依赖于灰度或颜色分析[ 7 ][ 8 ]以及纹理或相似性特征[ 9 ],在精确的像素级分类方面存在不足,特别是对于高空间分辨率图像(≤4 m)。此类图像的挑战在于以对象尺度表示土地覆盖类别,并且农村和城市地区之间的光谱分布不同[ 2]。农村地区主要以大型自然物体为特征,而城市地区则以人造物体为特色。分析大面积的这些图像需要进行详细的光谱分析,同时考虑空间和语义背景,以便更好地进行区分 [ 4 ] [ 5 ]。

CNN 广泛用于语义分割,在局部信息提取方面表现出色 [ 10 ]。然而,对于遥感,考虑整体背景和远程依赖性对于避免歧义至关重要[ 4 ][ 11 ][ 12 ][ 13 ]。最近,注意力机制在计算机视觉中变得越来越重要,特别是对于分类、检测、对象定位和分割等任务[ 14 ][ 15 ]。通过将经典 CNN 与注意力机制相结合,可以实现分类和目标检测的最佳性能 [ 16]。因此,这些架构中结合了各种注意机制,通常在不同的空间分辨率级别上运行[ 4 ][ 17 ][ 18 ][ 19 ]。

本文介绍了复杂城乡环境下遥感图像语义分割模型SCGLU-Net。受 MACU-Net [ 20 ] 的启发,我们的混合架构将 CNN 编码器与作为解码器的特定 Transformer 结合起来。我们使用非对称卷积[ 20 ]来分析局部上下文并降低计算复杂度。SCGLU-Net 的不同之处在于引入了传播注意力,以在多尺度融合期间增强编码器的相关描述符。SCGL 块受 [ 21 ] 的影响,引入了一个独特的注意力层,它同时结合了通道和空间注意力,解决局部和全局语义上下文。SCGL块如图1所示(b),考虑空间描述符和通道描述符之间的相互作用。在这个 SCGL 块中,空间注意力将特征聚合到超级标记的规则网格中,以便在估计空间注意力 [ 22 ] 时能够以高分辨率使用自注意力 [ 15 ] 。该模型使用精细细化头(FRH)以原始图像分辨率合并空间和通道信息。在各种环境下的复杂场景的WHDLD和DLRSD数据集上进行了性能测试[ 20 ][ 23 ]。这项研究的主要贡献是:

· 引入传播注意力,这是一种注意力机制,用于在集成到解码器中的多尺度融合提案期间优先考虑相关信息并减少编码器层的伪影。

· 引入 SCGL 块,将通道和空间注意力合并到单个块中。与传统方法不同,该模块允许同时捕获空间和通道描述符之间的交互,克服了由于二次复杂度而在更高空间分辨率下使用自注意力的限制。



图1。(a) MACU-Net 和 (b) SCGLU-Net 中注意力块的图示。

· 为了解决目标区域和非目标区域之间的不平衡,减轻分类器对背景类的偏差,采用焦点损失和 Dice 损失函数的组合来解决样本不平衡。

本文的其余部分的结构如下。第 2 节致力于对以前的工作进行综合回顾,以展示新方法的兴趣。第 3 节详细描述了非对称卷积、传播注意力、SCGL 和构成所提出模型核心的 FRH 块的架构。在第 4 节中,我们介绍了我们的实验结果,并对所获得的性能与文献中最广泛使用的方法进行了比较。本文以结论结尾,然后提出观点。

2.相关工作

自 2000 年代初以来,在 IKONOS、QuickBird 和 GeoEye 等高空间分辨率和极高空间分辨率卫星成像仪的推动下,遥感图像分割取得了迅速发展。这些图像的精细空间分辨率对传统的基于像素的分析提出了挑战[ 7 ][ 9 ][ 10 ][ 24 ][ 25 ][ 26 ],从而导致了新的分类算法的开发。这些算法被证明是不够的,因为它们无法处理复杂场景的内部变化[ 27 ][ 28 ]。

受[ 29 ][ 30 ]等作品的启发,CNN由于其提取空间信息的能力而成为遥感语义分割的标准。已经出现了两种架构,一种是基于金字塔空间池的架构,如 PSNet [ 31 ] 和 deepLab [ 17 ],另一种是基于 U-Net 架构的架构 [ 32 ]。U-Net采用编码器-解码器,它使用跳跃连​​接来连接来自相应编码器层和下面层的信息,允许多尺度信息捕获并改进城市语义分割[ 33 ][ 34 ][ 35]。与 U-Net 系列模型不同,PSPNet 和 Deeplab 等模型使用空间金字塔池来聚合从精细到粗略的多尺度信息。尽管在 PASCAL-VOC 数据集上取得了成功 [ 36],这些模型需要预先训练的编码器,并且由于对全局空间上下文的考虑有限而面临非常高分辨率图像的限制。精细遥感图像分割的另一个问题是它们只考虑局部空间语义上下文。为了解决全局语义上下文问题并提高遥感图像语义分割的性能,提出了混合 CNN,在这些架构中,CNN 模型与注意力机制相结合,特别是在解码器中。因此,一些作者提出使用各种注意力机制,如附加注意力、自注意力、空洞卷积、空间和通道注意力模块来增强城市语义分割[ 13 ][ 37 ][ 38 ][39 ]。最近,MACU-Net [ 20 ] 具有密集连接的 CNN 和类似 CBAM 的通道注意力 [ 40 ],通过将 mIoU 分数提高了 1.5% 以上,优于纯 CNN。然而,这些注意力是围绕卷积乘积构建的,因此高度依赖当地情况。

最近,变压器[ 15 ]已适应计算机视觉,在分类任务[ 16 ]和长期依赖建模[ 41 ][ 42 ]中表现出卓越的性能。对于极高空间分辨率图像的语义分割已经出现了两种架构趋势。纯变压器在[ 43 ][ 44 ]中充当编码器和解码器,但其计算复杂度不断增加。第二个趋势涉及基于 Transformer 的编码器和基于 CNN 的解码器 [ 45 ][ 46]。尽管解决了局部空间和全局语义上下文,但由于编码器中变压器的二次计算复杂性,这些模型面临着增加的复杂性。在[ 12 ]中,作者表明,通过将经典 CNN 与 Transformer 相结合,可以实现对象分类和检测任务的最佳性能。另一种方法采用基于CNN的编码器和基于变压器的解码器[ 21 ][ 38 ][ 47 ],具有多尺度特征融合和不同空间分辨率尺度的注意力机制的混合[ 4 ][ 18 ][ 21 ] [ 47]。变压器和注意力机制分别用于各种过程和最深的空间分辨率水平[ 4 ][ 18 ][ 19 ]。然而,在[ 21],作者强调了通过考虑空间和通道特征之间的相互作用所实现的显着性能提升,而这一点在某些架构中被忽视了。我们提出了一种模型,结合了纯 Transformer 和混合架构的优点,在 MACU-Net 框架内具有基于 CNN 的编码器和基于 Transformer 的解码器。该模型引入了一种新的注意力机制,以在为每个网络层构建特征图时捕获空间特征的能量。此外,解码器集成了一种将不同空间分辨率级别的通道和空间注意力交互相结合的机制,增强了模型考虑场景中局部和全局语义上下文的能力。

3. 方法

在本节中,我们将深入分析该架构的关键组件。我们首先强调与 MACU-Net 模型的架构差异。然后焦点转移到对注意力机制的详细检查,特别是解码器中使用的机制。本节分为几个小节,涵盖架构的一般介绍(3.1)、传播注意力的回顾(3.2)、空间通道全局局部块(SCGL)的探索(3.3)、一项研究FRH 块(3.4)的一个版本,并以第 3.5 节中损失函数的估计作为结论。

3.1. SCGLU-Net的结构

新模型的灵感来自图 2中所示的MACU-Net 架构 [ 20 ] ,这是一个具有编码器-解码器结构的密集连接的卷积神经网络 (CNN)。在图 3中,我们描述了新模型的架构。与 MACU-Net 一样,新模型编码器采用非对称卷积

块(ACB)[ 20 ]以增强表示能力并以较低的计算复杂度捕获局部上下文[ 39 ]。它允许编码器以从粗到细的各种空间分辨率提取描述符图,从而增加通道维度。ACB块的原理如图4所示。在新架构中,编码器层之间的转换涉及k 个ACB 块,然后使用因子为 2 的最大池化来减小大小。对于从第 1 层到第 2 层以及从第 2 层到第 3 层的转换, k的值为 2、3用于从第 3 层到第 4 层以及第 4 层到第 5 层的过渡。

我们的模型和 MACU-Net 之间的主要区别在于解码器架构。在 MACU-Net 中,解码器利用反卷积和通道注意过程来重建原始图像的分割掩模,而在 SCGLU-Net 中,使用不同注意机制的组合来重建分割掩模。为了捕获全局交互,从最深的编码器层到解码器的过渡涉及多头自注意力(MSA)[ 15 ],然后是 2 个 ACB 块。受到之前工作的启发 [ 18] 显示了组合多种注意力机制的性能优势,解码器利用新的空间通道全局局部块(SCGL),它在局部和全局尺度上同时组合空间和通道注意力。该块允许考虑空间描述符和通道描述符之间的交互。在转置卷积之前,每个 SCGL 块后面有两个 ACB 块。局部注意力使用 3 × 3 或 5 × 5 内核卷积,而全局上下文是围绕自注意力机制构建的,像素在每个空间分辨率级别上聚集成规则的超像素网格 [ 22 ]。多尺度信息融合流程如图5所示引入了一种称为传播注意力的新颖注意力机制,它使编码器能够提取特征

该方法确保来自编码器层的每个特征图的信息根据其重要性进行加权。权重是在训练阶段学习的。最后一层包括一个特征细化头(FRH)块,用于在原始图像分辨率下组合空间和通道信息,从较低层捕获语义上下文。接下来的部分概述了构成新模型核心的关键模块。

3.2. 传播注意力

我们的模型中使用这种注意力来融合来自编码器的信息和来自解码器的信息。它的目的是在下采样后支持每个空间尺度上最相关的空间特征,因为在我们的模型中,每个解码器层中的输入数据是来自下面的解码器层和来自编码器的所有上面层的特征的组合。事实上,正如[ 18]中的作者所指出的],空间分辨率越高的空间特征在信息合并过程中影响越大。尽管仅使用卷积乘积,然后进行池化来从粗到细的空间级别传播特征,但由于对空间上下文的独特掌握而受到影响,并且只能保证网络的平移不变性。这种注意力通过考虑具有相似计算复杂性的每个空间尺度、全局上下文和局部上下文来填补这一空白。这种关注是受到作者在[ 18 ]中提出的提高残差块容量的启发。

3.3. 空间通道全球局部块 (SCGL)

空间通道全局局部(SCGL)块由一个通道注意块和一个空间注意块组成,能够考虑输入特征图中的空间尺度和通道维度变化,以进行多尺度信息融合。受[ 48 ]中SACM的启发,通道注意力引入了一个新的分支来估计通道之间的交互,通过避免忽略空间和通道特征之间的交互来改进SACM[ 48 ]。空间注意力分为两个分支:一个分支捕获局部空间交互并保留细节,另一个分支捕获长期依赖性和全局语义上下文以进行场景解释。图 7展示了新的通道注意力流程图,同时图8描绘了空间注意力的流程图。

3.3.1. SCGL 中的通道注意力

在SCGL块中,根据等式(5)和等式(6),通道注意力是局部通道注意力和全局通道注意力的总和

3.3.2. SCGL 中的空间注意力

SCGL 中的空间注意力是围绕两个并行工作的分支构建的。其中一个分支负责根据局部上下文构建空间注意力,并且基于卷积乘积。另一个分支负责捕获全局上下文,并基于多头自注意力机制。

上表总结了从最深层(第5层)到最上层(第2层)构建SCGL块的全局空间注意力的参数。输出层,基于下一节的细化头,就不列出来了。随着从较低层到较高层的进展,由于通道数减半,头的数量减少,而超级令牌的大小加倍,并且仅限于 16 × 16 [ 16 ] 用于全局关系提取。使用三次迭代来估计超级令牌计数,因为增加超级令牌计数并没有显着改善我们的实验结果。

3.4. 精加工头块 (FRH)

该块受 [ 4 ] 的启发,将来自较低网络层的丰富语义数据与来自原始图像的空间描述符合并。包含两个分支,其中一个专注于通道交互,使用卷积块注意力模块(CBAM)[ 40 ]进行通道注意力。通道注意力图是通过权重共享网络生成的。另一个分支通过深度卷积处理空间交互。注意力通过求和来组合,由两个不对称卷积块(ACB)处理,并且 1 × 1 2D 卷积产生分割掩模。与原始模块不同,这种方法避免了过采样和线性插值,从而减少了误差。图10图解了精细化头块 (FRH) 的视觉表示。

3.5. 损失函数

为了解决深度网络中梯度消失的挑战,特别是在具有不平衡类别的遥感图像的语义分割中,鲁棒的损失函数对于训练期间的最佳收敛至关重要。为了减轻类别不平衡的影响,采用了Lin 在 2017 年引入的焦点损失

损失估计偏差。值得注意的是,当γ = 0 时,焦点损失相当于交叉熵。此外,为了确保各种对象类别的准确定位并考虑类之间的相互作用,使用Dice 损失[ 55 ]来最大限度地减少重建掩模和原始掩模之间的信息损失。

4 实验与结果

为了评估我们的模型在高分辨率遥感图像语义分割方面的有效性,我们在具有不同城市和乡村复杂场景的两个数据集上对其进行了测试。我们的模型的性能与科学文献中最先进的算法进行了比较。进行了两组实验:第一组重点关注 mIoU、精度、召回率和平均像素精度 (mPA) 等指标,以进行结果比较。第二个系列评估了模型的计算效率,考虑了 Flops 复杂度 (G)、所需内存 (MB)、参数数量 (M) 和推理速度 (Fps) 等因素。后续部分将详细介绍数据集、实验和对所得结果的分析。

4.1. 数据集

第一个数据集是WHDLD,它是武汉大学提供的公共数据集[ 20 ][ 23 ][ 56 ]。它由高分一号和资源三号卫星传感器提供的武汉市区上空的4940张尺寸为256×256像素的RGB彩色图像组成,空间分辨率为2 m。分割掩模代表 6 类对象,即裸土、建筑物、人行道、道路、车辆和水。在我们的实验中,数据按照 0.7:0.1:0.2 的比例随机分为 3 个子集:训练、验证和测试。图 11显示了 WHDLD 数据集中的图像和标签。

至于DLRSD数据集,是一个包含2100张RGB彩色图像的数据集,尺寸为256×256像素[ 23 ][ 56 ]。它由代表农村和城市地区遇到的 17 类物体的分割掩模图像组成。这些是飞机、裸露地面、建筑物、汽车、丛林、土地、码头、移动房屋、人行道、沙子、海洋、船舶、水箱或燃料、树木和水。

[ 57 ]提出的数据,其中包括 2100 张图像,分为 17 个土地覆盖类别,每个类别 100 张图像。图像的空间分辨率为 0.3 m。在我们的实验中,数据按照 0.7:0.1:0.2 的比例随机分为 3 个子集,用于训练、验证和测试。图 12显示了 DLRSD 数据集中的图像和标签。

这两个数据集包含同一图像中以不同比例存在的大量待识别对象。那里有分辨率低于20×20的汽车、树木,也有分辨率大于200×200的建筑物、湖泊、道路等,分布混乱,边界模糊。这使得对相邻对象之间的像素进行分类变得困难。

4.2. 实验假设

为了研究我们算法的性能,测试环境包括操作系统 Pop!_os 22.04 版本、CUDA12、PyTorch 1.13 和 python 3.10。训练阶段,不同模型的输入图像大小固定为256×256像素,优化器为Adam类型

由[ 58 ]引入,采用余弦退火衰减策略的WHDLD和DLRSD的学习率分别为0.0003和0.0001[ 59 ]。所有实验均在具有 8GB VRAM 的 NVIDIA GeForce RTX 3070 Max-Q GPU 上实施。数据集被随机分为 3 个数据子集,其中 70% 数据用于训练,10% 数据用于验证,20% 数据用于测试。要最小化的损失函数由[ 60 ] 提出的Dice 损失函数和焦点损失[ 54 ]的总和组成。] 如上一节所示,以便能够减轻不平衡数据的影响。我们的模型的效率与据我们所知,通过联合平均交集(mIoU)、平均像素精度(mPA)等指标进行卫星图像语义分割最有效的算法进行了比较。 、精度 (P) 和召回率 (R) 按类别 [ 18 ] [ 61 ]。通过将我们的模型与使用 WHDLD 或 DLRSD 数据集的卫星图像语义分割中使用的模型进行比较,对我们的模型的性能进行了定量评估。在这些模型中,我们有:

1)用于语义分割的CNN模型:U-Net [ 32 ]和U-Net3+[ 35 ],MulitlabelRSIR[ 56 ]

2)使用金字塔空间池的:DeepLabv3+[ 17 ],PSPNet[ 31 ],DPPNet[ 62 ],参考文献中的Segment Anything Model(SAM)。[ 63 ]。

3)基于CNN的注意力网络:[ 20 ]中介绍的MACU-Net,[ 18 ]中介绍的MAU-Net,[ 19 ]提供的带有HL模块的多尺度网络,具有附加注意力的AttU-Net U-Net[ 37] ],CAU-Net [ 64 ]。

4)完全基于变压器的网络,具有基于变压器的解码器:由[ 44 ]引入的SegFormer、HrVit多尺度视觉变压器[ 65 ]、TMNet多分支变压器[ 66 ]和Fursformer[ 67 ]。

4.3. 结果与分析

表 2总结了按对象类别划分的 mIoU、Precision 和 Recall 指标的结果及其 WHDLD 数据库的平均值。表 3总结了每个类别的 DLRSD 。表 4列出了全球结果。这些结果表明我们的模型具有正确定位场景中存在的对象的高能力。平均像素的结果

按类别划分的 (mPA) WHDLD 约为 76.43%,DLRSD 约为 79.56%,这表明虽然存在错误分类,但一般来说,当正确定位时,像素主要在对象内表示。

4.3.1. WHDLD 数据集的比较结果

图 13显示了我们的模型与 MACU-Net 的分割的视觉结果。使用多个注意力以及选择考虑较少代表的像素类的损失函数可以增加分割的结果。因此,两个模型相对较好地识别了较大的同质区域,即使对于第 1 行,我们可以看到我们的模型更好地识别建筑物的边缘和形状,而 MACU-Net 则不然。此外,原始模型通过混淆人行道和道路,对两个非常相似类别的对象进行了错误分类。我们的模型是



图 13 . WHDLD测试MACU-Net和SCGLU-Net的可视化结果。

对图像中表现不佳的对象更加敏感,因为正如我们在第 2 行中看到的,原始模型无法识别图像中比其他对象表现得更少的建筑物,而我们的模型设法检测其存在。在第 3 行中,原始模型无法区分包含大物体的精细物体,例如裸露土壤中是否存在水,而我们的模型检测到水的存在,但情况并非如此。以 DLRSD 数据集为例,图 14说明了我们的模型与 MACU-Net 相比的分割结果。之前的观察结果得到了证实,因为在第 1 行中,原始模型对场景中存在的物体的分类非常差,而在第 2 行中,由于车辆在移动房屋和草地区域的尺寸相对较小,因此无法识别车辆。在第 3 行中,原始模型无法充分区分两个相近的类别,例如裸土和人行道。与原始模型不同,我们的模型在每种情况下都表现出相对更好的性能。为了衡量我们的算法在 WHDLD 和 DLRSD 数据集上进行的实验中的效率,我们将获得的结果与最先进的方法给出的结果进行了比较。

正如我们在表5中看到的,我们的方法在 mIoU 方面表现优于所有模型,与最佳模型 AttU-Net 相比增益 +1.54%,与呈现最弱结果的 U-Net 相比增益 +4.37%。结合多种注意力机制和 Transformer 的方法在 mIoU 中给出了更好的结果,其次是空间金字塔池化和纯 CNN 的方法。关于精度 (P),相对于 multilablRSI 的增益分别为 7.28% 和 1.80%,multilablRSI 的性能最差,为 69.12%,UNet3+ 架构为 74.60%。只有 CAU-Net 的精度比我们的方法更好,但我们可以看到我们的方法的性能相对接近 76.40%,CAU-Net 的性能相对接近 76.57%。我们可以认为,局部语义上下文和范围依赖性同时增加了模型检测图像中对象类别的能力,与仅考虑当地环境的方法不同。根据召回率 (R) 和平均像素精度 (mPA),我们的方法对所有模型进行了执行,其中 PSPNet 的性能最差,增益为 3.72%,AttU-Net 的增益为 1.22%。这个结果表明我们的模型是正确识别和影响正确类别中的对象的最佳模型之一

尽管场景很复杂。就 mPA 而言,我们的方法对所有模型进行了性能最差的 MAU-Net 的增益为 6.59%,而 Rmg + HL 的增益为 1.75%。这些结果表明我们的模型能够正确分类每个对象WHDLD 数据集。这意味着我们的模型比任何其他算法都能更好地将对象类别分配给像素。此外,定位物体的能力仍然优于原始模型。当我们将我们的模型与使用注意力机制的模型进行比较时,我们可以看到,与使用通道注意力的 MACU-Net 相比,使用 Transformer 的 mIou 性能提高了 HrVit 的 1.04% 和 SegFormer 的 2%,而我们的模型将 mIou 提高了 3.73 %。让我们比较我们的模型和具有通道注意力或空间注意力等注意力的模型之间的 mIou 性能。我们观察到,与 MACU-Net 相比,这些模型的 MAU-Net 的 mIou 增加了 0.96%,AttU-net 的 mIou 增加了 2%。因此,组合注意力和转换器的使用极大地提高了网络识别数据集中对象的能力,例如具有大量大面积对象的 WHDLD。

4.3.2. DLRSD 数据集的比较结果

关于 DLRSD 数据集,结果还表明我们的算法在所有指标上都优于所有其他算法。与最佳模型相比,我们的 SCGLU-nets 与 Fursformer 相比,mIoU 提高了 3.32%,精度比 MACU-Net 提高了 0.88%,召回率比 CAU-Net 提高了 5.62%,与 Rmg 相比,mPA 提高了 0.70% + HL。与 MAU-Net、DeepLabV3+、U-Net、U-Net3+、PSPNet、AttU-net 和 Segformer 等一些模型不同,这些模型由于存在大量对象类别及其大规模变化而导致性能下降,我们的相反,模型、CAU-Net、Rmg+ Hl 在所有指标上的表现都有所提高。这是因为像 MAU-Net 或 MACU-net 这样的模型没有考虑对象尺度之间的突变。通过考虑不同空间和通道分辨率下的空间和通道特征之间的相互作用,与这些相互作用在最低层中定义的 Rmg + HL 相比,我们的模型设法对它们敏感。PSPNet 和 U-Net 在所有指标中表现最差,而将多尺度融合与卷积乘积和空洞卷积相结合的 U-Net3+ 和 DeepLabV3+ 分别获得了显着的性能提升,分别获得了 5.09% 和 3.19% 的增益。 U-Net3+ 的 mIoU、准确率分别为 8.29% 和 3.99%、0.9% 和召回率,而 DeepLabV3+ 的 mPA 结果非常相似,分别为 5.12% 和 3.85%。对于像 DLRSD 这样的数据集来说,单独的多尺度融合不足以区分对象。与多重注意力模型相比,特别是与我们的模型相比,如果我们将我们的结果与这些模型系列中最有效的结果进行比较,纯 CNN 和空间金字塔轮询模型的性能要低得多。与 U-Net3+ 相比,我们的算法的 mIoU 提高了 6.12%,精度提高了 4.52%,召回率提高了 7.17%,mPA 提高了 3.37%。在所有指标中,与所有模型系列相比,该模型的基于注意力和转换器的性能均最佳。结果表明,注意力有助于模型提高检测对象类别及其在图像中位置的能力。与其他具有注意力和 Transformer 的模型相比,我们的方法的增益在 Rmg + HL 的 2.5% 和 AttU-Net 的 7.12% 之间。这是由于不同类型的注意力和变压器的结合。

对这两个数据集结果的研究表明,多尺度信息融合的引入以及注意力机制的引入极大地提高了 CNN 网络在极高空间分辨率下分割空间图像的能力。然而,多种类型注意力的组合使用虽然可以提高性能,但对于 DLRSD 中可变大尺寸对象相互作用的图像来说还不够。在这种情况下,考虑空间和通道特征之间的相互作用大大增加了获得的结果和网络的灵敏度。

4.3.3. 网络效率比较

我们在 WHDLD 测试集上将 SCGLU-Net 与基于 mIoU 的高效分割网络以及参数数量和复杂性方面的 GPU 内存占用进行了比较。比较结果如表7所示。当我们比较每种方法的参数数量和复杂度(FLOP)时,我们的方法在这两个方面都表现得不错,这表明 SCGLU-Net 并不是简单地增加计算量来获得高精度。与注意力模型的复杂性相比,我们的方法

4.4. 消融研究

为了评估每个提出的注意力机制对我们模型性能的影响,在 WHDLD 和 DLRSD 数据库上进行了消融实验。评估重点关注 mIoU 指标以及复杂性(flops)、内存(MB)和模型速度(fps)。WHDLD 的结果总结于表 8 ,DLRSD 的结果总结于表 9。在这些实验中,U-Net 作为基线,缺乏任何注意力机制,仅考虑卷积的局部上下文,这与具有 ACB 卷积、密集连接架构和通道注意力机制 CAB 的 MACU-Net 形成鲜明对比。

基线是 U-Net 架构,它仅对解码器中的本地上下文信息进行建模。基线的损失函数是经典的分类交叉熵。

传播注意力:我们在 U-Net 架构中的跳跃连接的输入处添加传播,以增加对来自编码器层的特征的注意力。传播注意力使 WHDLD 的 mIoU 增加了 0.17%,DLRSD 的 mIoU 增加了 0.23%,对内存以及参数的复杂性和内存要求的影响相对较小。

基线 + 传播注意力 + 通道注意力:仅添加通道注意力可使 WHDLD 的 mIoU 增加 1.05%,使 DLRSD 的 mIoU 增加 1.28%。通道注意力也会对内存需求产生影响,因为通道注意力的数量

基线+传播注意力的参数增加了 61%,DLRSD 的基线参数增加了 86%。对于 WHDLD,此增强表示基线 + 传播注意力的 0.34% 和基线的 86%。添加通道注意力并不会显着提高模型的速度 (Fps),因为基线 + 传播注意力和基础 + 传播注意力 + 通道注意力的速度仍然相同,并且 DLRSD 的增强幅度较小,为 0.6%。

基线 + 传播注意力 + 空间注意力:在传播注意力之后仅添加空间不会提高模型的性能,如 WHDLD 和 DLRSD 的 mIou 增加所示。此外,空间注意力还导致内存需求和触发器复杂性的增加。对于我们的两个数据集,仅添加空间注意力会导致 WHDLD 模型的推理速度降低 2.85%,DLRSD 模型的推理速度降低 4.6%。结果是,由于其二次复杂度,单独使用空间注意力在我们的模型中对于大分辨率尺寸并不是最佳的。

基线+传播注意力+SCGL:这个块的影响是如此重大。在内存需求方面,SCGL 块为两个数据集增加了 275.43 MB 的基线内存。它小于从基线单独获取的通道和空间注意力的内存需求总和,WHDLD 和 DLRSD 为 940.3 MB。此外,通过使用比例块,我们注意到 WHDLD 的速度较基线提高了 60%,DLRSD 的速度较基线提高了 53%。就我而言,我们注意到 WHDLD 显着增加了 2.85%,DLRSD 显着增加了 4%。这些结果表明,将全局和局部的空间注意力和通道注意力结合起来比单独使用这种注意力更合适。

基线 + 传播注意力 + SCGL+ FRH:正如我们在表8和表9中看到的,添加 FRH 块也不太显着地增加了 WHDLD 的 mIoU 0.15% 和 DLRSD 的 mIoU 0.28%,并且模型的复杂性尽管显着增加两个数据集的内存需求比基线 + SCGL 增加了 639 MB,推理速度增加了约 0.80%。使用标准 2D 卷积乘积可以解释这种增强,因为这种卷积乘积需要大量计算来估计结果。

5。结论

由于场景的复杂性和多变性,高分辨率遥感图像的语义分割提出了挑战。这种复杂性需要考虑本地语义上下文和长期依赖性。我们提出的混合架构 SCGLU-Net 集成了 CNN 作为编码器、变压器和通道注意机制的组合作为解码器来解决这个问题。该架构中的 SCGL 块在本地和全局处理空间和通道注意力,捕获描述符之间的交互。这是相对于传统方法的进步。此外,该架构在多尺度融合中引入了传播注意力,以选择性地保留来自编码器的相关信息,从而减轻在基于串联的方法中观察到的伪影。

发布日期:2024-04-09