点击上方蓝字关注我们
Multi-Sem Fusion: Multimodal Semantic Fusion for 3-D Object Detection
作者:
Xu, Shaoqing, Li, Fang, Song, Ziying, Fang, Jin, Wang, Sifen and Yang, Zhi-Xin
作者单位:
国网吉林省电力公司,北京理工大学,澳门大学等
论文链接:
https://ieeexplore.ieee.org/document/10497135
简介
大多数多模态 3-D 物体检测框架将 2-D 图像中的语义知识集成到 3-D LiDAR 点云中,以提高检测精度。然而,2-D 特征图的分辨率受限阻碍了准确的重新投影,并且经常导致明显的边界模糊效应,这主要归因于错误的语义分割。为了解决这些限制,文中提出了多语义融合 (multi-sem fusion ,MSF) 框架,采用 2-D/3-D 语义分割方法来生成两种模态的解析结果。随后,利用校准参数将 2-D 语义信息重新投影到 3-D 点云中。为了解决 2-D 和 3-D 解析结果之间的错位挑战,引入了一个自适应基于注意的融合 (AAF) 模块,通过学习自适应融合分数来融合它们。然后,将融合语义标签的点云发送到后续的3D物体检测器。此外,提出了一个深度特征融合(DFF)模块来聚合不同层次的深度特征,以提高最终的检测性能。实验结果表明,与仅使用点云的方法和仅使用二维语义信息的方法相比,所提出的融合策略可以显著提高检测性能。此外,该方法可以作为插件无缝集成到任何检测框架中。
研究动机
基于 LiDAR 的 3-D 物体检测是当前研究的主流。可以从 LiDAR 传感器轻松获取深度信息以定位物体。然而,由于稀疏扫描,纹理和颜色信息已完全丢失。因此,基于 LiDAR 的物体检测框架经常出现误报 (FP) 检测和错误类别分类。
另一方面,图像可以提供细节纹理和颜色信息,而深度信息则完全丢失。目前,大多数多模态 3-D 物体检测框架都利用 2-D 图像中的语义信息来提高 3-D LiDAR 点云的检测精度。然而,基于图像的语义分割方法不可避免地会出现物体边界处的模糊现象。当将二维语义投影重新投影到三维点云中时,这种效果会变得更加糟糕。 图 2显示了这种效果的一个例子。以子图左下方的大卡车为例,图 2(a)中背景蓝线高亮中的显著截头体区域(即橙色点)由于投影不准确而被错误地归类为前景。此外,由于数字量化和多对一投影问题,将三维点重新投影到二维图像像素上并不是一对一的过程。值得注意的是,如图 2 (b)所示,三维点云的分割结果在障碍物边界处优于二维图像。然而,与二维图像相比,三维点云的类别分类通常会产生更差的结果(如红色点所示),这主要是由于点云中细节纹理信息的丢失。
尽管存在一些语义错误,但利用二维图像语义信息进行三维物体检测的有效性已经得到证实。然而,一个自然而然的问题出现了:通过有效地融合二维和三维语义结果,最终的检测性能是否可以进一步提高?
论文贡献
为了解决上述问题,文中引入了一个通用的多模态融合框架Multi-Seg Fusion,它在语义层面融合多模态数据,以提高最终的三维物体检测性能。
所提出的多模态融合 (MSF) 框架为语义层面的多模态融合提供了一种通用方法,通过整合多模态数据来提高 3-D 物体检测性能。
提出了一个 AAF 模块,通过学习融合注意力分数,在点或体素级别融合不同类型的语义信息,而不是直接组合不同的语义结果。
提出了深度特征融合(DFF)模块,通过融合从网络不同层提取的深度特征和CA技术,融合不同层次的深度特征,以更好地检测各种尺寸的物体。
所提出的 3-D 物体检测融合框架在两个公开基准上进行了评估,证明了其优越性,并在 KITTI 和 nuScenes 数据集上取得了 SOTA 结果。以所提出的框架为基准,还在 ICRA 研讨会第四届 nuScenes 物体检测挑战赛中获得了冠军。
MSF 框架
图 3概述了 MSF 框架,该框架旨在充分利用从各种传感器获得的信息,在两个不同的层面上实现融合。
首先,通过使用 2-D 和 3-D 语义解析结果绘制点云,将两种类型的信息进行早期融合。为了处理不准确的分割结果,提出了一个 AAF 模块来学习不同传感器的注意力分数,以便进行以下融合。通过将点与融合的语义信息一起作为输入,可以从主干网络中提取深度特征。
考虑到不同大小的对象需要不同级别的特征,提出了一种新颖的 DFF 模块,以不同级别丰富主干中的特征,以深入探索全局上下文信息和局部空间细节。
MSF框架包括三个主要模块:多模态语义分割模块、自适应注意力融合模块和 DFF 模块。为了从 RGB 图像和 LiDAR 点云中获得语义分割,利用任何现有的 2-D 和 3-D 场景解析方法。然后,通过 AAF 模块融合二维和三维语义信息。通过将点与融合的语义标签一起绕过主干网络,使用 DFF 模块通过聚合各个感受野和 CA 模块内的特征信息来进一步改善结果。
2-D/3-D 语义解析
1) 2-D 图像解析 使用 Deeplabv3+ 来生成语义结果。该网络采用二维图像作为输入,并为前景和背景类别生成逐像素语义类别分数。假设得到的语义图为,其中(w,h)是输入图像大小,m是类别数。通过使用内在和外在矩阵,2D 语义信息可以轻松地重新投影到 3D 点云中。
2)3-D点云解析 点云的解析结果可以很好地克服边界模糊的影响,同时保留距离信息。与 2-D 图像分割类似,这里采用 Cylinder3D 来生成语义结果,因为它在 AD 场景中的性能令人印象深刻。更重要的是,可以从 3D 对象边界框粗略地生成真实的逐点语义注释,而不需要任何额外的语义注释。具体来说,为了将语义标签分配给 3-D 点,直接将类标签分配给前景实例的 3-D 边界框内的点,同时将所有 3-D 边界框外的点视为背景。这种方法使提出的框架能够直接在 3D 检测基准上工作,而不需要额外的逐点语义注释。训练网络后,将得到解析结果,用 表示。
基于自适应注意力的 2-D/3-D 语义融合
提出了 AAF 模块来自适应地组合 2-D/3-D 语义分割结果。然后,优化后的语义信息可以供后续的 3D 对象检测主干进一步提取增强的特征,以提高最终的对象检测精度结果。
所提出的 AAF 模块的详细架构如图 4 所示。输入点云被定义为一组点,每个点 包含 (x, y, z) 坐标和其他可选信息,例如强度。在下面的上下文中,文中仅关注坐标,这意味着只有坐标 (x, y, z) 被视为输入数据。目标是开发一种有效的策略来集成来自 2D 图像和 3D 点云的语义信息。在这里,提出了一种新颖的方法,采用自适应注意力融合模块来学习体素级别的每个细胞注意力分数或点级别来自适应地组合两种类型的语义结果。具体来说,该模块首先连接点云坐标属性(x,y,z)和2-D/3-D语义分割标签,以获得形状为N×(2m + 3)的融合点云。
DFF模块
在AD场景中,确定物体的身份和位置对于后续的规划和控制模块至关重要。因此,不仅需要识别存在什么物体,而且还需要识别它们所在的位置。在典型的目标检测框架中,它们分别对应于分类和回归分支。根据经验,全局上下文信息对于识别特定类属性非常重要。相反,对象的属性(例如尺寸、方向和精确位置等)回归分支优先捕获相对较小范围内的感兴趣区域(ROI)周围的详细空间信息。为了准确检测各种尺寸的物体,因此需要不同尺度的感受野。大多数目标检测框架都考虑了这个问题。然而,如何高效地利用各种视场却至关重要。
为了解决这个问题,提出了一个特定的 DFF 模块来聚合具有不同感受野的低级和高级特征。图5显示了DFF模块的架构。首先,来自特征提取器的主干特征 通过具有多个卷积层的Conv_block1,以获得 作为基本特征。这里,Conv_block1有四个Conv模块,第一个Conv模块以C个通道作为输入,输出128个通道,后面的三个Conv共享相同的输入通道和输出通道。对于图 5 中的每个 conv 模块,它由一个 Con2d、一个批量归一化层和一个ReLU层组成。为了便于理解,在图5的底部给出了每个卷积操作的步幅和内核大小。然后,特征将通过两个分支来获得具有不同感受野的特征。对于一个分支,首先使用 Conv-block2 将特征下采样到 1/2 大小,然后通过 Conv2 操作。最后,使用 Deconv2 将输出上采样到特征图 中。对于另一个分支, 将通过 Covn3 和 Conv4 连续获得特征 。输出 的形状与 相同。此外,使用加法运算来融合不同级别的感知场特征以改进特征表示。
3-D 目标检测框架
所提出的 AAF 和 DFF 模块是独立于检测器的,任何现成的 3-D 对象检测器都可以直接用作提出的框架的基线。 3D检测器接收AAF模块产生的点或体素作为输入,并且可以保持主干结构不变以获得主干特征。然后,通过所提出的 DFF 模块来增强主干特征。最后,从分类和回归头生成检测结果。
实验结果
致谢作者,转载请注明出处!关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️ /欢迎投稿
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!
ECCV 2024 | 破解多模态学习:单模态模型联合嵌入助力缺失模态预测新突破!
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习
🌟投稿必读