欢迎关注微信公众号“机器人具身智能”
论文题目:GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection
论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_GAFusion_Adaptive_Fusing_LiDAR_and_Camera_with_Multiple_Guidance_for_CVPR_2024_paper.pdf
一、摘要
近年来,基于鸟瞰视角(BEV)的3D多模态物体检测方法取得了显著进展。然而,大多数方法忽视了LiDAR和摄像头之间的互补交互和引导作用。本文提出了一种新颖的多模态3D物体检测方法,名为GAFusion,具有LiDAR引导的全局交互和自适应融合。具体来说,我们引入了稀疏深度引导(SDG)和LiDAR占据引导(LOG),以生成具有足够深度信息的3D特征。接下来,我们开发了LiDAR引导的自适应融合变换器(LGAFT),从全局视角自适应增强不同模态BEV特征的交互。同时,设计了带稀疏高度压缩和多尺度双路径变换器(MSDPT),以扩大不同模态特征的感知域。最后,引入了一个时间融合模块,用于聚合前几帧的特征。GAFusion在nuScenes测试集上实现了73.6%的mAP和74.9%的NDS,达到了最先进的3D物体检测结果。
本研究的主要贡献如下:
我们提出了GAFusion,一种新颖的3D物体检测方法,利用LiDAR引导来补偿摄像头特征的深度分布,并为摄像头特征提供足够的空间信息。
我们设计了LiDAR引导的自适应融合变换器(LGAFT),旨在以自适应方式增强两种模态之间的全局特征交互,促进语义和几何特征的融合。
我们在nuScenes数据集上进行了大量实验,验证了GAFusion的有效性。实验结果表明,在不使用任何增强策略的情况下,我们的模型实现了72.1%的mAP和73.5%的NDS,达到了最先进的性能水平。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
我们的工作通过对高层架构设计空间进行系统分析,为端到端自动驾驶汽车(AV)这一快速发展的领域做出了贡献。我们研究了模块的必要性、它们的位置以及模块之间的信息流动。这些见解促成了PARA-Drive的发展,这是一个新颖的、完全并行的自动驾驶架构,不仅在感知、预测和规划方面达到了最先进的性能,而且显著加快了推理速度。尽管结果令人鼓舞,但目前仅限于开环环境,我们正在努力将实验扩展到仿真中的闭环环境。
四、英文摘要
欢迎关注微信公众号“机器人具身智能”