TPAMI 2024|打破边界!双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

文摘   2024-10-02 08:13   英国  

盛世华诞 举国同庆

Uni-to-Multi Modal Knowledge Distillation for Bidirectional LiDAR-Camera Semantic Segmentation

作者: Tianfang Sun, Zhizhong Zhang, Xin Tan, Yong Peng, Yanyun Qu, Yuan Xie

作者单位: 华东师范大学、中南大学、厦门大学

论文链接:

https://ieeexplore.ieee.org/document/10659158/?arnumber=10659158

简介

将 LiDAR 点与图像结合进行语义分割已展现出巨大的潜力。然而,由于两种模态之间的异质性(如密度、视野),在每个点和像素之间建立双射映射存在挑战。这种模态对齐问题在跨模态方法的网络设计和数据处理上引入了新的挑战。具体而言,1)投影到图像平面外的点;2)保持几何一致性的复杂性限制了许多数据增强技术的应用。为了解决这些挑战,文中提出了一种跨模态知识插补和转换方法。首先,引入了一种双向特征融合策略,能够同时插补缺失的图像特征并执行跨模态融合。这使我们即使在图像缺失的情况下也能生成可靠的预测。其次,提出了一个单模态到多模态的知识蒸馏框架(U2MKD),通过将单模态教师模型的有用特征传递给跨模态学生模型,克服了增强失配的问题,从而有效训练学生模型。在 nuScenes、Waymo 和 SemanticKITTI 数据集上的实验验证了所提出方法的有效性。

研究动机

图1 自动驾驶场景下跨模态方法的问题。 (a) 红色背景的点位于 FOV 之外(左侧为 nuScenes,右侧为 Waymo); (b) 相机故障导致的鲁棒性下降。红色虚线代表其仅 LiDAR 基线的性能; (c) 由于模态错位,跨模态数据增强不可避免地会引入噪声。左图是来自 nuScenes 数据集的点云的相应增强图像,并使用 GT-paste 进行增强。为了保持跨模态对齐,粘贴的点云图形通过 CutMix连接到图像。在右图中,我们将点投影到图像上,其中灰色点和红色点分别代表来自原始场景和粘贴点云的点。

模态错位问题根源于两种模态的异构性质,因此模态融合过程中存在以下挑战:

(1)视场外的点。由于FOV(即视野)的差异,相当一部分点(见图1(a)红色背景的点不在FOV内)被投影在图像平面之外。因此,这些点无法得到正确的图像特征;

(2)增强错位。保持增强点云和图像之间的模态对齐是一项复杂的任务,很容易引入噪声(见图1(c)红框);

(3)鲁棒性下降。图像的质量和缺失对预测结果的准确性有重大影响。如果相机出现故障,精度可能会急剧下降(甚至比激光雷达更差)。如图1(b)所示,我们测试LIFusion的鲁棒性,蓝色条代表FOV内点的mIoU,而红色条代表整个点云的mIoU,绿色条代表当所有相机发生故障时显示 mIoU。

论文贡献

(1)提出了 BFFI 模块,以实现 LiDAR 和图像模态之间的相互特征融合,同时输入丢失的图像特征。通过这种方式,利用不成对的点云进行训练,并在实际场景使用过程中承受相机故障;

(2)提出了单模态到多模态的知识蒸馏框架,将知识从单模态教师转移到跨模态学生。因此,可以利用单模态网络作为代理来传递额外的知识,例如仅限 LiDAR 的数据增强,适用于跨模态网络。

方法

本文方法建立在知识蒸馏框架之上。如图2所示,首先训练一个仅LiDAR的教师,然后修复它。之后,部署跨模态双分支学生 进行训练。将 中 3D 分支的预测与教师的预测对齐。观察结果是,尽管该单模态教师比跨模态学生弱,但它仍然能够在 LiDAR 模态内传输信息特征,从而提高学生 的表现。因此,它允许我们方便地为教师使用任意实例增强,然后将知识传递给学生。

图 2. 总体框架。左侧部分演示了方法的工作流程。首先,训练仅 LiDAR 的教师进行 3D 语义分割并修复它。之后,训练跨模态学生,其中 3D 分支和 2D 分支的特征与所提出的 BFFI 模块完全融合,包括 P2I 融合过程和 I2P 融合过程。并将学生中 3D 分支的最后一个特征图(黄色)与教师中的特征图对齐。 3D 分支的预测受到教师生成的真实值和软标签的监督。右侧部分描述了 P2I 融合过程和 I2P 融合过程,其中图像特征在所提出的 MS-P2IFM 模块 (b) 的帮助下用 LiDAR 特征进行修饰,然后融合到 LiDAR 特征,其中视场外点是由2DLearner (c) 利用。

为了充分探索 LiDAR 和相机传感器中的互补信息,作者还为 中的每个阶段提出了一个双向融合模块。该模块不仅能够集中融合两种模态的特征,而且还能对遗漏的模态进行估算。融合后的特征包含丰富的跨模态信息,然后将流回到两个分支的下一层。最后,由纯 3D 标签监督的学生网络生成语义分割预测。

backbone设置。跨模态学生网络 由 3D 分支和 2D 分支组成。文中采用基于 SPVCNN的稀疏卷积作为 3D 分支。仅 LiDAR 的教师网络也是 SPVCNN,但具有更大的通道宽度。它使模型能够为点云提取更具辨别力的特征。采用基于 2D 卷积的 SwiftNet作为中的 2D 分支。请注意,这两个分支都是 ResNet 风格的,并且具有相同数量的阶段,这使模型能够在每个阶段执行特征融合。

单到多模态知识蒸馏

该框架中的一个关键假设是:从一种模态学到的特定模态决定性特征不能转移到从不同模态学到的网络。这表明蒸馏应该在单一模态内进行,并且单一模态蒸馏不会影响其他模态表示

文中以完全监督的方式训练仅 LiDAR 的教师网络,即 SPVCNN(见图 2 左上图),描述如下:

其中 代表仅 LiDAR 网络和ground truth标签的预测。 是交叉熵损失和 Lovasz-softmax 损失的组合.

之后,修复教师网络并开始使用预训练的仅使用 LiDAR 的教师提供的软标签来训练学生。具体来说,知识蒸馏是通过特征图模仿和预测对齐来进行的,描述为:

其中 表示来自学生和教师的 3D 编码器最后一层的特征图。 代表来自学生和教师的 3D 分支的预测。 分别代表 MSE 损失和 Kullback-Leibler 散度损失。最后,对跨模态学生的训练过程可以描述为:

通过蒸馏,文中发现尽管仅使用激光雷达的教师的精度比跨模态学生差很多,但蒸馏仍然可以给学生带来好处。

双向特征融合和插补

文中结合了 EPNet++ 中采用的特征融合策略,同时引入了两个重要的增强功能。对于 FOV 内的特征融合,与 EPNet++ 不同,EPNet++ 简单地将点特征与其相应的像素特征合并,导致排除特征图中的大量像素,通过合并多尺度信息来丰富点特征。为了与 FOV 外的点进行特征融合,提出了一种轻量级且高效的基于 MLP 的 2DLearner 来为这些点生成伪图像特征。这使网络能够使用这些点进行训练并预测这些点的适当语义标签。

实验结果

表 3 nuScenes 测试基准上不同方法的定量结果。 nuScenes 上可用的模式包括 LiDAR(L) 和 Camera(C)。 † 在训练期间利用额外监督信号(例如 3D 边界框)的方法。 “Ours*”代表我们使用 Sphereformer 作为 3D 分支的方法。

表 5 Waymo 开放数据集上不同方法的定量结果。 Waymo 上可用的模式包括 LiDAR(L) 和 Camera(C)。 † 在训练期间利用额外监督信号(例如 3D 边界框)的方法。 ‡ 代表我们根据官方代码重新训练。 * 代表使用模型集成。

图 6. 图像影响的可视化。第一列显示了真实情况和我们的网络在没有图像的情况下的预测。下面的列显示了当给定图像的某个视图以及给定视图时预测的变化。看起来,通过补充图像信息,预测得到了极大的改善。

致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️

   喜欢的话,请别忘记点赞👍➕关注哦 



推荐阅读


ECCV 2024 | 中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TIP 2024|Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

ICML 2024|多模态数据融合理论创新!天津大学提出预测多模态动态融合框架

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章