南京邮电&南京理工提出URoadNet:使用双重稀疏注意力用于多尺度道路网络提取

文摘   2024-12-26 07:01   美国  

摘要

道路网络分割面临的挑战要求算法能够适应稀疏和不规则的形状,以及多样化的上下文,这常常导致传统的编码解码方法和简单的Transformer嵌入失败。我们提出了一种计算高效且功能强大的框架,用于优雅的道路感知分割。我们的方法,称为URoadNet,能够有效地编码细粒度的局部道路连通性和全局的整体拓扑语义,同时解码多尺度的道路网络信息。URoadNet通过集成连通性注意力,提供了一种对U-Net架构的新颖替代方案,能够利用跨多层次采样特征的道路内交互,同时减少计算复杂性。这种局部交互为学习道路网络与背景之间的全局交互提供了宝贵的先验信息,通过另一种整体性注意力机制进行建模。两种稀疏注意力机制交替且互补地安排,并联合训练,从而在不显著增加计算复杂度的情况下,提升了性能。在多个不同分辨率的数据集上进行的广泛实验,包括马萨诸塞州数据集、DeepGlobe、SpaceNet和大规模遥感影像,表明URoadNet的性能超过了当前最先进的技术。我们的方法代表了道路网络提取领域的重要进展,提供了一种计算上可行的解决方案,并实现了高质量的分割结果。

 欢迎加入自动驾驶实战群


介绍

道路结构出现在许多尺度和不同的环境中 它们可以是单行道、住宅区的双车道道路、马车道、桥梁,甚至是高速公路。因此,在导航、自动驾驶、城市规划和智慧城市建设等许多应用中都需要进行道路研究。许多分割算法旨在将复杂的道路网络中的原始像素内容转换为更具信息性的几何和拓扑描述。由于道路结构具有细长和曲折的多尺度特征,因此需要强大的能力来建模更细致的局部像素细节和整体的全局拓扑语义。当前的最先进技术依赖于U-Net的变种,设计用于解码不同复杂度水平的局部空间上下文,并且对特定轮廓进行递归优化,或通过在网络架构中关注所有相关特征。这些方法传播或建模多层次的道路结构特征,以帮助密集道路网络的预测过程。

在这些方法中,当道路结构变得极为不规则且受到周围环境影响时,自注意力嵌入通常优于传统的网络设计。概念上,U-Net包括三个可扩展的部分:编码路径、对称解码路径和跳跃连接。一些研究旨在改进编码器或解码器部分,换句话说,是将自注意力与下采样或上采样相结合。这种方法替代了标准的全局注意力,能够自然地学习道路内的连通性信息,从而进一步促进对细粒度的局部道路特征的学习。另一些研究则聚焦于编码器和解码器之间的瓶颈或跳跃连接,通过通道注意力来触发道路之间的全局互动。他们向U-Net引入了多尺度的通道级信息,同时减少了自注意力的计算复杂度。

尽管这些研究设计有趣且表现良好,但先前的工作存在以下问题:1)它们在图像分辨率和全局上下文之间存在不同的权衡:空间和通道自注意力嵌入要么缺乏更细粒度的局部道路感知,要么丧失了可变的全局结构语义。除了这些不同的变种之外,我们能否开发一种强大的双重注意力嵌入,探索来自各个尺度的整体交互?2)传统的分割模型通常利用多尺度特征,其中细小且脆弱的道路结构需要从高分辨率的特征图中分割出来。仅仅将Transformer嵌入应用于高分辨率特征图并不高效,因为道路结构稀疏,且由于计算成本过高,实践中不可行。基于双重注意力,我们能否开发一种高效的机制,从像素和语义角度关注稀疏的标记?

III. 方法

我们现在介绍我们新颖的多尺度道路感知分割架构。图2展示了URoadNet如何从原始U-Net发展并与最具代表性的分割变种有所不同。接下来,我们首先追溯这些演变和差异,并阐明选择这些变种的动机,然后讨论URoadNet的技术和实现细节。

A. 新架构背后的动机

我们进行了一项比较研究,调查了各种U-Net扩展的性能。为此,我们使用了具有挑战性的马萨诸塞州道路数据集。表I总结了包括参数、FLOPS、速度和精度在内的马萨诸塞州道路数据集的结果。我们的实验表明了两个关键发现:1)Transformer嵌入的U-Net设计并不总是更好,尤其是在学习更细粒度的局部道路细节和控制计算复杂度时;2)通过递归部署的网络变体可能适用于多尺度结构分割,并且更快,但其模型复杂度依赖于骨干网络的选择和递归迭代的次数。虽然这些发现可以归因于以下事实:首先,自注意力块的高计算要求使得它们在高分辨率分割中难以实现。尽管可变形卷积和CTrans策略可以减轻高分辨率输入的计算量,但它们的自由学习和全局建模不可避免地忽略了道路内的交互。其次,早期的尝试过度依赖于将特征图下采样到有限的区域,从而限制了从各个尺度的整体交互范围。因此,它们需要额外的处理来获得期望的结果,导致复杂性有所不同。

实际上,关于中双路径理论的讨论为解决这些问题提供了重要的启发,开辟了利用双重注意力学习从局部和全局视觉依赖中进行提取的可能性。我们探索了一种比[19]中更优雅的机制,以解决与独立密集自注意力计算无关的问题,而是通过互补的稀疏关键采样来学习多尺度道路感知分割。如表I所示,URoadNet的参数数量与RoadFormer和UCTransNet相当,但其速度更快,精度/召回率分别提高了17.4%/5.5%和5.3%/3.8%。

图3展示了详细的示意图。根据[19]中的思想,URoadNet由U-Net骨干网络和双重稀疏注意力(Dual-SA)嵌入组成。编码器和解码器均由四个“Conv-Gn-ReLU”阶段组成,其中第一阶段有64个特征通道,且在每个池化层之后,编码器中的通道数翻倍。解码器使用双线性插值简化操作,并使用群体归一化(Gn)[42]以适应小批量数据。Dual-SA嵌入旨在融合多个尺度上关键道路细节和关键结构语义的信息。它建模来自骨干网络所有阶段的采样特征,即e1、e2、e3和e4,并将它们通过两个互动路径进行传递。最终的特征被融合,并通过上采样操作和卷积层进行重构,然后与解码器特征d1、d2、d3和d4分别连接,用于最终的高分辨率分割。

我们的贡献是将训练过程分解为:1)局部连通性注意力和2)全局整体性注意力,通过提出的Dual-SA,并将这两条路径进行整合,使其在局部和全局空间采样中互为补充。连通性注意力自适应地聚焦于每个局部窗口内沿中心线的道路内位置。之后,整体性注意力将这些局部连通性作为丰富的先验,以键/值的形式通过交叉注意力来优化输入特征图。我们将Dual-SA分为四个阶段,在每个阶段的开始插入多尺度特征嵌入层,并堆叠Dual-SA模块。

每个阶段的特征维度和分辨率保持不变。以下,我们首先重新公式化Transformer形式的通用双重注意力[19],然后讨论我们的两个多尺度道路感知变体,即Dual-SA。

C. 双稀疏注意力嵌入

  1. 新的重新公式化:将一个扁平化的单尺度特征图 别作为像素和语义路径的输入,
    然后对其输出进行归一化,接着通过相同的多层感知机(MLP),最后通过逐元素求和的方式融合两个路径。

  2. 交替标记更新:根据公式(1),有效的双重注意力的瓶颈是两个路径的独立密集自注意力计算。考虑到每个转置嵌入输出包含整个道路图像的抽象(例如,( z’ )),这种设计不可避免地会阻碍低层次和高层次特征标记之间的整体交互。现有的技术,尤其是DaViT 和 CrossViT ,尝试解决交互的挑战。前者的简单级联技术和后者通过单一压缩的CLS标记进行交互都会导致严重的信息丢失。同时,观察结果表明[,使用来自不同路径的输出标记作为键/值进行信息交换可以提高性能。因此,我们选择了一种更好的解决方案,通过交替更新来自不同路径的标记。

  3. 道路感知的连通性自注意力:根据我们的动机,双重注意力的瓶颈在于过多的连通性特征,其中大部分对稀疏的道路结构没有信息量。此外,考虑到 ( N ) 可能非常大(例如,512 × 512),上面连通性路径的计算复杂度会非常高,尤其是涉及大量查询和键元素。因此,要求一种数据依赖的稀疏自注意力机制来灵活地编码连通性查询,从而引入可变形机制。受到[38]的启发,我们引入了变形偏移量 ( \Delta )。然而,如果我们直接在自注意力中应用相同的自由学习机制,感知场往往会偏离目标。为了更好地拟合道路结构,我们提出了一种迭代方法,在特征图的局部中心线的指导下依次建模连通性标记之间的关系。这些聚焦的中心线通过从查询中累积偏移量来学习得到,这些偏移量是在每个局部窗口内进行求和得出的。我们采用双线性插值来采样特征,然后从中获取变形的键/值。

  4. 整体性自注意力用于多尺度交互:现代语义分割框架大多数受益于多尺度特征图[45]。为了进一步将尺度信息引入交互中,我们从另一个角度重新审视自注意力,并提出了整体性自注意力(见图5)。

与其他高效的双重注意力比较
我们将原始的MSA替换为我们的C-MSA和I-MSA分别在(3)和(4)中,并通过交叉注意力以交替方式将它们整合,构建Dual-SA。另一种高效的方法是像DaViT一样堆叠窗口-通道对自注意力层,或者像CrossViT一样使用一个CLS与来自另一个分支的标记进行交互。然而,它们有两个缺点:1)通过简单级联或压缩CLS得到的标记由于交互有限,可能并非最优;2)由于缺乏对高分辨率图像的高效处理,很难在多尺度分割任务中泛化。

E. 道路网络预测问题
在我们的所有实验中,我们使用来自不同卫星、国家和地理区域的数据集,包含超过10,000张道路图像,用于训练和测试。为了确保道路外观的丰富性,我们涵盖了城乡地区、铺设道路、未铺设道路和泥土小道。训练集包含数万条道路,已经在不同尺度和背景下进行了标注。许多道路表现出道路内的不一致性,而相应的图像则包含拓扑复杂的道路网络和背景干扰,增加了该分割任务的难度。

我们将训练集中的多样道路的分割问题公式化为一个URoadNet预测问题。我们构建了一个带有Dual-SA嵌入的多尺度道路感知预测器(参见第III-C节),以恢复细粒度的局部和整体的全局细节。该嵌入通过在全尺度采样的道路特征上执行连通性注意力、整体性注意力和连通性-整体性交互,并通过交替更新标记来处理这些问题,从而不仅解决了上述挑战,还节省了计算复杂度。在应用一个 1 × 1 卷积层和 sigmoid 函数到解码器的最终连接特征图之后,我们构建了观察到的道路分割图。

IV. 实验
在本节中,我们首先提供用于测试URoadNet的详细数据集和指标说明。接下来,我们讨论结果并基于不同算法的属性和公开实现对其进行基准比较。然后,我们描述了评估方法。最后,我们将URoadNet应用于大规模遥感影像中的道路网络提取问题。

A. 数据集和指标

我们在以下数据集上进行实验:马萨诸塞州道路、DeepGlobe道路、SpaceNet道路以及大规模遥感影像数据集。

  1. 马萨诸塞州道路 [2] [1 m/pixel]:包含1,108张训练图像,14张验证图像和49张测试图像,具有高质量的道路和背景类标注,覆盖马萨诸塞州超过2,600平方公里的区域,场景包括农村、郊区和城市地区。每张图像的大小为1500 × 1500。

  2. DeepGlobe道路 [3] [0.5 m/pixel]:作为2018年卫星图像理解挑战的基准数据集创建。该数据集包含来自印度、印尼和泰国的像素级标注数据,随机分为4,891张训练图像,190张验证图像和1,145张测试图像。每张图像的大小为1024 × 1024。

  3. SpaceNet道路 [4] [0.3 m/pixel]:标注了来自四个不同城市(上海、巴黎、喀土穆和拉斯维加斯)的2,549张训练图像,并使用剩余的928张图像进行测试。地面真值以线条字符串的形式给出,指示未铺砌、铺砌和泥土道路的中心线。所有训练图像首先通过Python包从原始GeoJSON文件生成道路标签。每张图像的大小为1300 × 1300。
    为了效率和公平比较,上述三个数据集的所有训练图像都被调整为512 × 512像素。

  4. 大规模道路数据集 [5]:从谷歌地球收集并准确标注用于评估。该数据集包括马萨诸塞州LS [1 m/pixel]、波士顿LS [0.44 m/pixel]、伯明翰LS [0.36 m/pixel] 和上海LS [0.51 m/pixel]影像,分辨率分别为14116×16273、23104×23552、22272×22464和16768×16640。

  5. 指标:与一般评估道路分割方法的方式相同 [46],[47],我们采用五个局部像素级指标:F1分数 (F1)、交并比 (IoU)、精度 §、召回率 ® 和整体准确率 (OA)。F1度量是精度和召回率的调和均值,相当于Dice系数。


B. 实现细节

为了确保不同算法性能差异的便捷和公平比较,我们在PyTorch平台上花费了大量时间调试所有方法。所有网络共享一个共同的训练和测试框架,并在NVIDIA A40 GPU、Intel® Xeon® Platinum 8358P (2.60GHz) CPU和80G RAM的服务器上实现。我们使用Adam优化器,初始学习率为0.0001,当验证集的损失在10个epoch内没有下降时,学习率减半。我们训练所有模型200个epoch,批次大小为2,使用联合交叉熵损失和Dice损失作为损失函数。

C. 消融实验

  1. 模型:我们首先对马萨诸塞州和SpaceNet数据集进行消融实验,这些实验可以全面评估处理不同类型道路的能力。我们评估了Dual-SA中的三种注意力机制,包括连接性自注意力 (C-MSA)、整体性自注意力 (I-MSA) 和交叉注意力。实验结果表明,“Baseline+Dual-SA”在两个数据集上普遍优于其他“Baseline+”方法,表明我们独特的分解与集成方法的有效性。特别地,C-MSA编码了局部道路连接性,而I-MSA学习了全局道路网络拓扑。然后,它们以交替方式更新,以关注真正的多尺度路径。

  2. 标签率:从另一个角度看,我们还进行了系列消融实验,比较了不同标签率下的模型结果。实验结果表明,URoadNet在较低标签率下仍能保持较高的性能,这可能是由于Dual-SA具有多尺度特征的交替更新机制,表明此嵌入不会对U-Net架构的泛化能力产生太大影响。值得注意的是,超过某一标签数之后,我们的结果不再显著提高,但仍然与100%标签率的其他Transformer嵌入方法表现相当。

D. 可视化检查

我们将URoadNet与四种强大的U-Net扩展方法进行比较:UNet++ [7]、RecurrUNet [10]、RoadFormer [13]和UCTransNet [14],以及两种多尺度注意力方法:DANet [19]和SegFormer [20],以及一种基于条形卷积的最新DSCNet [18]。实验表明,URoadNet在复杂的城市、郊区和乡村地区的表现优于这些方法,尤其是在处理未铺砌、铺砌和泥土道路时。与CNN变体(例如UNet++和RecurrUNet)相比,URoadNet在道路网络提取中展现出明显的优势。


E. 像素级评估

通过上述的训练、消融和测试程序,我们首先使用像素级评估来突显显著的性能提升。我们的URoadNet与Dual-SA嵌入在F1和道路IoU指标上显然达到了最佳表现。与基础的U-Net和注意力变体相比,URoadNet在F1和IoU上表现出显著的优势。

F. 路径追踪评估

对于每个数据集,我们使用URoadNet和基线方法预测的道路分数来生成路径,随机选择并加入固定数量的地面真值路径,最后计算重叠度 (OV) 和平均距离 (AD) 值。实验结果表明,URoadNet在长路径上能够更好地跟随真实的道路结构,并且与其他方法相比,在较长路径长度下保持较高的准确性

G. 大规模遥感影像实验

URoadNet与Dual-SA嵌入的另一个优势是其在大规模道路网络预测和重建中的计算可行性。为了测试算法的泛化能力,我们在马萨诸塞州LS(Ma LS)、波士顿LS(Bos LS)、伯明翰LS(Bhm LS)和上海LS(Shh LS)上的大规模区域进行了实验,涵盖了多种复杂场景。实验结果表明,URoadNet在不同遥感分辨率下的准确性始终保持较高水平,能够处理不同类型的道路、不同的地面类型(铺砌或未铺砌)和不同的车道数,在复杂场景和严重遮挡条件下具有出色的表现。

总结:

我们的贡献总结如下:

  • 我们提出了URoadNet,这是第一个多尺度道路感知分割框架。在URoadNet中,连通性路径和整体性路径以交替的方式建模从各个尺度的道路内部和道路之间的互动,从而在性能上超越了当前最先进的方法。
  • 我们重新设计了连通性注意力和整体性注意力中的自注意力模式,称为双重稀疏注意力,使得像素(局部空间信息)和语义(全局空间信息)的稀疏采样成为可能,从而将二次复杂度降低为线性。
  • URoadNet在道路IoU(交并比)方面比三种代表性的Transformer嵌入设计提高了7.5%/13.8%/5.7%、0.4%/8.1%/10.3%和10.0%/17.9%/16.4%,在马萨诸塞州、DeepGlobe和SpaceNet数据集上分别取得了更好的速度-准确性权衡。在大规模(LS)道路网络预测方面,URoadNet也在马萨诸塞州LS、波士顿LS、伯明翰LS和上海LS图像上分别取得了67.8%、77.0%、71.0%和69.0%的道路IoU,表现出色。


最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。





Ai fighting
全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
 最新文章