TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF!高效感知多传感器融合,解决3D语义分割问题

文摘   2024-08-03 10:01   英国  

论文链接:

https://ieeexplore.ieee.org/document/10541899

代码链接:

https://github.com/ICEORY/PMF

简介

用于 3D 语义分割的多传感器融合技术对于自动驾驶和机器人等许多应用的场景理解非常重要。例如,对于配备 RGB 摄像头和 LiDAR 的自动驾驶汽车,融合来自不同传感器的互补信息以实现稳健且准确的分割至关重要。然而,由于两种模态之间存在巨大差异,现有的基于融合的方法可能无法满足所需性能。作者研究了一种称为感知(Perception-aware)多传感器融合(PMF)的协作融合方案,以有效地利用两种模态的感知信息,即来自 RGB 图像的外观信息和来自点云的空间深度信息。首先使用透视投影将点云投影到相机坐标。通过这种方式,在 2D 空间中处理来自 LiDAR 和相机的输入,同时防止 RGB 图像的信息丢失。然后,提出了一个由激光雷达流和相机流组成的双流网络,以分别从两种模态中提取特征。提取的特征通过有效的基于残差的融合模块进行融合。此外,作者引入了额外的Perception-aware损失来衡量两种模态之间的感知差异。最后,所提出了 PMF 的改进版本,即 EPMF,通过优化透视投影下的数据预处理和网络架构,更加高效有效。具体来说,跨模态对齐和裁剪,以获得严格的输入并减少不必要的计算成本。在透视投影下探索更高效的上下文模块,将 LiDAR 功能融合到相机流中,以提高双流网络的性能

研究动机

现有的多传感器融合的方法主要使用球面投影将密集的2D图像特征提升到3D LiDAR坐标,并在稀疏LiDAR域中进行特征融合。然而,这些方法存在一个关键的限制:由于点云非常稀疏,RGB 图像中的大部分外观信息在未投影到 LiDAR 坐标后会丢失。例如,如图1(c)所示,图像中的汽车和摩托车因球面投影而变形。因此,现有的基于融合的方法很难从投影的 RGB 图像中捕获外观信息。

论文贡献

作者从以下几个方面扩展了之前的版本[1]。

1)提出跨模态对齐和裁剪(CAC)来解决点云和RGB图像的未对齐问题。

2)探索了点云不同分辨率的影响,并在不降低性能的情况下提高了方法的效率。

3)在更多基准数据集上采用了所提出的EPMF,并在极其稀疏的点云上展示了所提出方法的优越性能。

4)提供更多的消融研究来检验方法的有效性。

[1]Perceptionaware multi-sensor fusion for 3d lidar semantic segmentation. ICCV, 2021.

EPMF

如图4所示,EPMF包含三个组成部分:(1)具有跨模态对齐和裁剪的透视投影;(2)具有基于残差的融合模块的双流网络(TSNet);(3)感知损失。EPMF方法首先使用透视投影将点云投影到相机坐标系。然后,使用包含相机流和激光雷达流的双流网络分别从两种模态中提取感知特征。相机流中的特征通过基于残差的融合模块融合到 LiDAR 流中。最后,将Perception-aware损失引入网络优化中。

数据预处理

在透视投影中,我们的目标是将点云 从 LiDAR 坐标投影到相机坐标,以获得 2D LiDAR 特征 。这里,C 表示投影点云的通道数。通过将第四列附加到 来获得 并计算相机坐标中的投影点:

其中是激光雷达坐标到相机坐标的投影矩阵。 通过附加第四个零行和列并设置 从校正旋转矩阵 扩展。

跨模式对齐和裁剪 如图4(a)所示,由于我们只关注点云的分割,直接将点云投影到相机的视图会导致不必要的计算成本。为了解决这个问题,文中引入了跨模式对齐和裁剪(CAC)。首先,将 RGB 图像和投影点云对齐,以找到多模态输入的重叠。然后,裁剪 RGB图像和投影点云以获得紧凑的输入:对于 RGB 图像,只保留包含点云的区域。对于投影点云,由于相机水平视场(FOV)之外的区域被其他相机覆盖,因此文中只保留相机水平视场内的点。在LiDAR传感器具有较大垂直FOV的情况下,可以将点云保留在图像之外。

EPMF的结构设计

由于图像和点云是不同模态的数据,因此很难使用单个网络来处理来自两种模态的两种类型的信息。作者提出了一个双流网络(TSNet),其中包含相机流和激光雷达流来分别处理来自相机和激光雷达的特征,如图4所示。这样,则可以使用为图像和点云设计的网络架构作为TSNet中每个流的主干。

双流网络设计 分别为 TSNet 中的 LiDAR 流和相机流。令 为输出概率 w.r.t.每个网络,其中 S 表示语义类别的数量。TSNet 的输出计算如下:

基于残差的融合模块的设计 由于图像特征包含目标的许多细节,因此文中引入了基于残差的融合模块,如图5所示,将图像特征融合到LiDAR流。令 为来自相机流的一组图像特征,其中 表示获取特征的层。表示摄像机流中第l层的通道数。分别表示第l层的特征图的高度和宽度。令 为来自LiDAR流的特征,其中 表示LiDAR流中第l层的通道数。为了获得融合特征,首先连接每个网络的特征,并使用卷积层来减少融合特征的通道数。融合特征 计算如下:

其中, [·; ·]表示串联操作。 是第 l 个融合模块的卷积运算。

考虑到相机容易受到不同光照和天气条件的影响,RGB图像的信息在室外环境中并不可靠。作者使用融合特征作为原始LiDAR特征的补充,并基于残差结构设计融合模块。结合注意力模块,融合模块的输出特征 计算如下:

其中 表示 sigmoid 函数。 表示注意模块中的卷积运算。 表示逐元素乘法运算。

实验结果

从表 3 中可以看出,EPMF 在 mIoU 方面优于单模态基线 7.3%。与 PMF 相比,EPMF 在 mIoU 上也实现了 2.0% 的改进。然而,EPMF 在 SemanticKITTI-FV 上的表现比 2DPASS 的预训练模型稍差。值得注意的是,EPMF 是在 SemanticKITTI-FV 上训练的,SemanticKITTI 的得分仅为 16.03%。为了公平比较,作者还使用官方发布的代码训练 2DPASS 并在 SemanticKITTI-FV 上评估模型。在这种情况下,EPMF 在 mIoU 方面优于 2DPASS 4.1%。

在3D LiDAR感知中,点云随着感知距离的增加而变得稀疏。由于远程感知对于自动驾驶汽车的安全非常重要,因此作者进一步对基准数据集进行距离评估,并研究EPMF方法在不同距离下的性能。如图 7 所示,在 nuScenes 和 A2D2 上不同距离下,PMF 和 EPMF 均大幅优于单模态基线,这表明融合策略可以有效地融合 RGB 图像的信息。

更详细的内容和实施过程请访问点击👉原文链接

喜欢的话,请别忘记点赞👍➕关注哦~


🌟推荐阅读

TIP 2024|Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

中山大学、鹏城实验室等首发!CVPR 2024| DMR:分解多模态表示——视觉强化学习中帧和事件融合

ECCV2024|GalLoP:多模态提示学习——视觉-语言模型的全局和局部提示

AAAI2024-南京大学、腾讯联合发表--MmAP:跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭!西工大团队提出通用多模态医学数据表示学习方法!持续自监督学习!

ICML 2024 |多模态最新进展!单模态增益多模态学习,解决多模态和单模态学习目标梯度冲突问题

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章