自动驾驶之星
点击上方蓝字关注 自动驾驶之星
鸟瞰视角(BEV)的3D感知在自动驾驶应用中起着关键作用。大型语言模型的出现激发了基于BEV的标注研究兴趣,以了解周围环境中的物体行为。
然而,现有方法将感知和标注视为 separate 任务,只关注其中一个任务的表现,而忽略了多模态对齐的潜在优势。为了弥合这种模式之间的鸿沟,作者提出了一种新颖的多模态任务对齐框架MTA,该框架可以提高BEV感知和标注。
MTA 包含两个关键组成部分:
一是 BEV-语言对齐(BLA),这是一种上下文学习机制,将BEV场景表示与 GT 语言表示对齐;
二是 检测-标注对齐(DCA),这是一种跨模态 Prompt 机制,将检测和标注输出对齐。MTA 在训练中集成到最先进的 Baseline 中,运行时无需增加额外的计算复杂度。
在nuScenes和TOD3Cap数据集上的广泛实验表明,MTA 明显优于最先进的 Baseline ,在感知方面实现了4.9%的改进,在标注方面实现了9.2%的改进。这些结果强调了统一对齐在解决BEV感知和标注方面的有效性。
1 Introduction
3D感知是具有身体AI应用(如机器人技术和自动驾驶)的基本且关键任务。在3D感知方法中,基于鸟瞰视角(BEV)的方法最近获得了显著的关注,特别是在自动驾驶任务背景下。与单目框架分别处理每个摄像机视图不同,BEV通过融合多视图摄像机图像或其他传感器输入(如LiDAR扫描)的信息,为解决下游自动驾驶任务(如检测和跟踪)提供了一个统一的场景表示。生成的BEV表示是解决自动驾驶任务的主要信息来源。
近年来,基于 Transformer 的BEV方法取得了快速发展,使得可以从多视图摄像头图像中提取出时空整体的周围环境表示 [20, 43]。这些丰富的表示帮助实现了最先进的3D感知性能。基础模型的兴起,如多模态大型语言模型(MLLMs),导致了关于3D场景可解释性和理解的研究的出现。这表现为一个描述场景中物体定位、上下文和行为的自然语言字幕任务。3D字幕已在各种室内应用中广泛研究 [7, 8] 并最近扩展到户外应用,如自动驾驶的感知任务 [16]。基于BEV的3D字幕从BEV和任务头中提取信息,并将其用作字幕生成的条件。
尽管关于BEV感知和字幕生成任务的研究日益增多,但跨模态的联合对齐,旨在提高两种模态任务的表现,尚未得到充分关注。特别地,一些工作专注于基于BEV的检测,但没有考虑字幕生成的性能[20],而另一些工作专注于字幕生成的性能,但没有报告在感知任务如3D检测[16]上的表现。然而,这两种任务并非互不相关,可以通过施加具有在自动驾驶应用中的3D感知和字幕生成领域取得重大进步的多模态对齐策略来相互补充。
为了弥合这一差距,作者提出了MTA,一种用于BEV感知和描述的跨模态任务对齐方法。所提出的MTA方法有两种对齐机制,即BEV-语言对齐(BLA)和检测-描述对齐(DCA)。BLA引入了一种多模态上下文学习机制,该机制将 GT 描述表示集成到模型中,以学习场景中BEV视觉表示和基于自然语言的场景理解之间的对齐。BLA不仅仅依赖语言建模目标,而是通过将基于BEV的上下文目标 Query 与从预训练文本编码器获得的相应 GT 语言表示对齐,为模型提供额外的监督。另一方面,DCA旨在明确促进视觉分支和语言分支的感知输出与描述输出的对齐一致性。DCA引入了一种跨模态 Prompt 机制,鼓励MLLM生成与预测边界框和类别标签一致的描述。DCA超越了仅依赖单一模态目标梯度(检测损失或语言建模损失)来优化任务头或MLLM。
MTA是一个灵活的框架,可以无缝集成到现有的基于BEV的感知和字幕框架中。此外,提出的MTA模块仅在训练时间使用,以强制不同模态之间的对齐。因此,MTA不需要任何架构更改,也不会在推理时间引入任何额外的计算开销,这对像自动驾驶等下游任务至关重要。在本文中,作者使用具有挑战性的大规模nuScenes[2]和TOD3Cap数据集[16]评估MTA在最新框架上的重要性。实验结果显示,MTA在感知和字幕任务上都超过了以前的最佳 Baseline 。特别是,MTA在感知和字幕指标方面分别比对应的最佳 Baseline 提高了4.9%和9.2%。此外,定性结果进一步确认了定量结果,表明MTA不仅实现了优越的性能指标,还减少了虚假字幕的出现,这在像自动驾驶等安全关键应用中是一个基本因素。
作者的主要贡献可以概括如下:
作者提出了一种名为MTA的新颖多模态任务对齐框架,该框架将基于BEV的感知与描述任务之间的问题进行了桥接。
MTA 提出了两个新的对齐模块,分别是 BEV-语言对齐 (BLA) 和检测-字幕对齐 (DCA),它们分别通过多模态上下文学习和对跨模态 Prompt 机制的强制对齐来执行对齐。
MTA能够无缝集成到现有架构中,并且在推理过程中不引入任何额外的计算开销,因为MTA的两个组件只在训练时才处于活动状态。
广泛的实验表明,MTA在极具挑战性的nuScenes和TOD3Cap数据集上,始终优于当前最先进的方法,并且在感知和描述任务上都表现出色。
2 Related Work
BEV Perception
近年来,BEV框架利用了生成高质量BEV特征图的 Transformer 架构。在这些工作中,BEVFormer通过将多视角摄像头图像的空间和时间信息融合,实现了对场景的时空整体表示。另一个在该领域具有突出意义的工作是BEVFusion,它提出了一种将来自摄像头和LiDAR传感器的BEV特征图进行融合的框架,以实现高效和鲁棒的BEV感知[24]。这些在BEV感知方面的进步为自动驾驶应用中更全面地理解3D环境奠定了基础。
3D Captioning
3D captioning旨在为给定场景中的物体的定位和行为提供自然语言描述。近年来,由于多模态大型语言模型和大量公共数据集的快速出现,3D captioning领域取得了显著进展,主要应用于室内场景。这些进展激发了实体AI社区收集3D captioning数据集并开发适用于室外应用(如自动驾驶)的3D captioning框架。在这方面的一项突出工作是TOD3Cap[16],它为自动驾驶发布了大型 captioning 数据集,并提出了基于BEV的3D密集captioning框架。该框架利用BEV和3D感知输出的信息作为输入,用于向MLLM生成caption。
尽管在这些BEV感知和3D描述方面的进步,但仍然存在一个重大的差距,即共同优化和调整这两种模态以提高两种任务的表现,作者将在本研究中通过提出的MTA框架来解决这一问题。
Vision-Language Models
视觉语言模型(VLMs),在大量互联网规模的数据上进行训练,在下游任务中学习良好的表示具有强大的潜力。例如,CLIP [32]、ALIGN [13] 和 Florence [40, 44] 预训练了百万到十亿级的图像文本对,在各种任务(如图像分类和检索)上表现出强大的零样本性能。
随后的研究提出了将 VLMs 有效地适应新领域和数据集的策略 [17, 47]。最近,VLMs 在基于BEV的自动驾驶应用中得到了探索,其中它们要么用于场景理解 ,要么用于改进自动驾驶任务(如感知和规划)的性能 。与以前的方法不同,MTA 强调在视觉和语言模式之间提高对齐,以共同增强 BEV 感知和描述任务。
3 Methodology
概述.多模态任务对齐(MTA)的整体框架如图1所示,该框架旨在增强BEV感知和描述任务之间的对齐,以实现在这两个任务上都达到最先进性能。以下是方法论部分的概述。在3.1节,作者提供了关于BEV感知和描述任务的背景。在3.2和3.3节中,作者详细介绍了所提出的MTA对齐机制,即BEV-语言对齐和检测-描述对齐。最后,在3.4节中,作者提供了训练MTA框架的整体损失函数。
Preliminaries
BEV感知模块。BEV感知模块处理诸如摄像头、LiDAR或两者结合的传感器输入,以获得周围环境的统一上下文表示。在给定的摄像头传感器背景下,通过 Backbone 网络处理多视图摄像头图像,以获得多视图摄像头特征。随后,将得到的视角视图特征输入BEV编码器,如BEVformer,通过空间-时间融合将这些图像特征提升到BEV空间[20]。
随后,生成的BEV特征图被输入到下游任务头,例如一个用于3D检测的Transformer解码器[38]。由于缺乏真实的BEV地图,BEV感知被端到端地训练,目标是最小化任务头损失函数。任务头的评估性能可以作为BEV感知质量的 Agent 。
BEV字幕模块。BEV字幕模块 的目标是生成场景中物体的定位和行为的自然语言描述。它将BEV感知输出,如BEV特征图和任务 Head 提供的物体 Proposal ,作为输入。通常采用关系 Query Transformer (Q-Former)来提取和从BEV感知中转移上下文信息到语言空间[16, 19, 37]。具体而言,Q-Former 将每个检测到的物体的嵌入映射到语言空间如下:
其中 表示连接操作, 表示检测Head的检测嵌入, 表示来自 BEV 编码器的 BEV 特征图, 是 Q-Former 中 Transformer 模块的总数。然后,使用多层感知机(MLP)将精炼的目标 Query 投影到 MLLM 的潜在维度:, 其中 表示投影的 Query , 是 MLP。MLLM 将投影的 Query 和语言 Prompt 作为输入,并为每个目标生成字幕。
BEV-Language Alignment
作者的目标是弥合基于BEV的场景表示用于3D检测和MLLM的语言场景理解和推理能力的鸿沟。然而,现成的MLLM无法直接理解和推理BEV特征,因为在它们的预训练阶段,它们没有接触到这样的表示。此外,BEV特征与MLLM的语言空间之间的对齐差距要大于通用MLLM中使用的视觉 Token [9]。
为应对这一挑战,作者提出了一种新颖的BEV-语言对齐(BLA)模块,该模块明确地将BEV感知特征与相应的 GT 语言表示进行对齐。通过将Q-Former的视觉BEV特征与 GT 描述特征进行对齐,作者增强了BEV感知和描述模块之间的对齐,使MLLM能够更好地理解和推理BEV表示。
正式地,BLA模块的工作如下。给定一个真实描述 ,作者使用一个预训练的CLIP文本编码器 [32] 来计算其文本嵌入。然后,作者提取来自Q-Former的层隐藏状态的投影特征 ,其中表示Q-Former的第层的隐藏状态,是一个可训练的投影头,参数化为一个MLP。通过以下均方误差损失来强制对齐:
概念上,增强的Q-Former可以被视为一个两阶段过程。在第一阶段(在l层之前),Q-Former通过关注BEV特征,学习物体 Query 的上下文感知表示。这一阶段允许Q-Former捕捉BEV表示中编码的时空关系和语义,并利用基于表示的直接监督。在第二阶段(从l层开始),Q-Former将物体 Query 特征映射到MLLM对齐的空间,使其更易于MLLM的语言推理能力。
Detection-Captioning Alignment
当前基于BEV的感知和标注框架中,3D检测和标注任务通常独立优化,这可能导致性能不佳和预测边界框与生成的标注之间缺乏一致性。为了解决这个问题,作者进一步提出了一个检测-标注对齐(DCA)模块,旨在弥合检测和标注输出的差距。这里的主要挑战在于检测标签(类别标签和边界框坐标)与标注logits(语言 Token )之间的显著差异。直接对齐这些输出可能导致两个任务都性能下降。
作者通过引入跨模态 Prompt 方法来解决这个问题。作者定义了一个可学习的 Prompt Token 集合,作为检测和描述输出的共享嵌入空间。形式上,和分别表示检测Head中的类别标签和边界框坐标。通过注意力池将连接的检测输出投影到跨模态 Prompt 空间:
其中 表示可训练的投影头参数化为 MLP。
同样地,作者将翻译 Token (captioning logits)输入到相同的 Prompt 空间:
其中, 代表来自 MLLM 的 captioning logits。
最后,为了在 Prompt 对齐检测和描述嵌入之间实现对齐,作者采用了CLIP对比损失[32]。
通过最小化 ,作者鼓励检测和描述输出的对齐在共享的 Prompt 空间中。
DCA模块通过明确执行感知和标注分支的主要输出之间的一致性,增强了BLA模块。通过整合两种对齐机制,作者提出的框架能够获得对3D场景的更全面理解,并使基于检测到的目标的更精确的标题生成成为可能。
Training
训练所提出的MTA框架的最终损失函数是一个加权组合,包括检测损失,语言建模损失,BEV-语言对齐损失和检测- captioning 对齐损失:
默认为[16]中默认不调优和设置(α,β)=(10,1),并设置(λ1,λ2)=(1,10^-2)以确保平衡幅度。
4 Experiments and Results
作者对提出的MTA框架进行全面评估,证明其通过新颖的对齐机制在提高3D密集描述和检测性能方面具有有效性。实验设置,包括数据集、评估指标和实现细节,在4.1节中描述。在4.2节中,作者将MTA的性能与基准TOD3Cap网络及其他最先进的方法进行比较,并附有定性结果。最后,在4.3节中,作者进行广泛的消融研究,以验证MTA的对齐组件的有效性。
Experimental Set-up
作者在nuScenes [2]和TOD3Cap [16]数据集上进行了全面的实验。nuScenes数据集是自动驾驶领域广泛使用的基准数据集,包含700个训练场景和150个验证场景。每个场景在约20秒内使用6个覆盖360度视野的相机拍摄,关键样本以2Hz的速率标注。检测任务包含来自10个物体类别的1.4万个标注边界框。TOD3Cap数据集扩展了nuScenes,提供了大约2.3百万个语言描述标注,平均每个场景有2700个描述。
感知度量.对于BEV感知任务,作者在nuScenes数据集内报告了标准的3D目标检测指标,包括:平均精确率(mAP),平均位移误差(ATE),平均尺度误差(ASE),平均方向误差(AOE),平均速度误差(AVE),平均属性误差(AAE)以及nuScenes检测分数(NDS)。关于检测指标的更多详细信息,请参见[2]。报告的结果是根据所有实验的验证划分计算的。
标题:字幕指标。对于BEV字幕任务,作者报告m@kIoU [8]指标。令(,)表示每个真实框-字幕对,其中和分别是第i个目标的边界框坐标和字幕。预测的框-字幕对表示为(,)。m@kIoU指标的公式如下:
表示真实场景中的物体数量, 表示标准图像描述评估指标,包括双语评估助手(BLEU-4 [30]),显式顺序评估翻译指标(MEEOR [1]),注意点导向评估回顾(Rouge [23])和基于共识的图像描述评估(CIDEr [36]),分别简称为 B-4,M,R 和 C。 表示指示函数,如果第 个 Box 的 IoU 值大于阈值 ,则设置为 1,否则设置为 0。
实现细节。对于模型配置,除非另有说明,作者遵循TOD3Cap [16]中的设置。作者使用通用的BEVFormer-tiny [20]作为预训练BEV感知模块,并使用轻量级预训练Llama-3.2-1B [25]作为BEV描述生成模块中的LLM。Llama-3.2-1B是1B参数类中用于设备使用场景的最具状态的模型。作者注意到MTA与TOD3Cap具有相同的架构,除了BLA和DCA机制之外。在所有实验中,模型使用学习率2×10^-4训练10个周期,Llama模型除了 Adapter 参数外都被冻结。这包括为预训练BEVFormer Baseline 再训练10个周期,以确保公平比较。
Main Results
3D 稠密字幕结果。作者比较了 TOD3Cap 网络与使用建议的 MTA 训练的相同模型之间的性能,以及其他最先进的方法:Scan2Cap [8] 使用消息传递图模块来促进学习目标关系特征。X-Trans2Cap [45] 应用了教师-学生方法,将 2D 图像到 3D 场景的详细外观信息进行迁移。Vote2Cap-DETR [7] 采用了一阶段设计,具有两个预测头,将场景特征解码为边界框和字幕。
如图1所示,MTA在所有字幕指标上均表现出一致且显著的改进。TOD3Cap Baseline 的3D密集字幕性能在C@0.25上提高了9.7分(8.6%),在C@0.5上提高了10.0分(9.2%)。这些显著的CIDEr得分提高表明,使用MTA生成的字幕与 GT 描述更为接近,无论是在n-gram覆盖率还是捕捉场景中单词的重要性及相关性方面[36]。此外,MTA在BLEU-4@0.25上的改进为0.7分(1.4%),在BLEU-4@0.5上的改进为0.9分(1.9%),表明生成的字幕在流畅性和语法正确性方面得到了提升。同样,在IoU阈值0.25和0.5处,METEOR和ROUGE指标也观察到类似的改进。这些结果强调了MTA在提高生成字幕的质量、相关性和连贯性方面的有效性。值得注意的是,BEVFormer是专门针对3D检测任务设计的,并且没有 captioning 组件,因此此 Baseline 的字幕指标并未报告。
3D 检测结果。如表2 所示,MTA 在几乎所有检测指标上都优于 Baseline 模型。改进特别明显,特别是在主要检测指标:NDS 和 mAP 上。具体而言,与仅以最大化检测性能为目标进行训练的 Baseline BEVFormer 相比,MTA 在 NDS 和 mAP 方面分别取得了 4.0% 和 4.1% 的改进。
同样地,MTA方法显著优于TOD3Cap方法,在NDS方面实现了3.2%的改进,在mAP方面实现了4.9%的提高。值得注意的是,原始的TOD3Cap论文并未报告检测结果[16]。因此,作者重新训练了他们的模型以获得比较数据,结果显示在NDS方面略有改进,在mAP方面略有下降,与BEVFormer Baseline 相比,这反映出作者遵循缺乏针对两个任务的对齐机制。
强调一下,在推理时间,三种方法的检测架构和参数是相同的。这表明,作者的方法在不增加任何额外计算成本的情况下提高了检测性能(参见表2的最后两列,展示了推理时间的参数数量和每秒帧数(FPS)值),归功于BEV与语言模态的对齐以及检测与字幕任务的一致性。
定性结果。图2展示了一个示例,以可视化在 nuScenes 和 TOD3Cap 验证数据集上的定性结果。检测结果表明,与 Baseline 方法相比,MTA在检测质量上取得了优越性,并且与 GT 检测的匹配更加紧密。同样,字幕结果显示,与TOD3Cap Baseline 相比,MTA在生成符合 GT 字幕在物体描述和定位方面的匹配度上更有效。例如,在图2中,由TOD3Cap方法生成的字幕错误地将公交车识别为垃圾箱,而MTA准确地描述了物体。这些定性结果展示了MTA对齐机制的另一个重要优势:减少生成虚幻字幕的可能性,这对于像自动驾驶这样的安全关键应用至关重要。定性结果进一步证实了定量结果,表明MTA在实现BEV感知和字幕任务上的优越性能。补充材料中提供了更多定性结果。
Ablation Study
作者进行了广泛的消融实验来验证提出的MTA框架中的关键设计选择。作者注意到,补充材料中提供了额外的消融实验和全面的实验表格。
为了更好地理解所提出的BLA和DCA模块的各自贡献,作者进行了一个消融实验,结果如图3所示。作者单独分析每个模块的表现,并将其与基准TOD3Cap模型相结合(MTA)进行比较。
值得注意的是,BLA和DCA机制分别独立地对TOD3Cap Baseline 产生了显著的性能提升。BLA模块对检测性能的影响尤为显著,因为NDS和mAP得分显著提高。这一发现表明,将BEV特征与语言表示对齐可以增强模型在3D场景中准确定位和分类物体的能力。相比之下,DCA模块对描述性能的影响更大。这意味着在共享 Prompt 空间中强制检测和描述输出的一致性,可以促进生成更准确、更能与视觉内容相结合的描述。因此,它减少了场景中描述物体及其时空关系出现幻觉或不一致的可能性。当将BLA和DCA模块组合在提出的MTA框架中时,作者在所有指标上实现了最佳的整体性能,证明了通过多模态对齐联合优化3D感知和描述任务的有效性。
的影响。作者还研究了将 BLA 目标附加到 Q-Former 的不同层上的影响,其中总层数 。表4 中的结果表明,对齐中间层性能最佳。作者假设,过早的对齐会导致检测嵌入直接模拟文本嵌入,而没有与 BEV 特征进行充分交互,这可能阻碍检测性能。相反,在 Q-Former 的较晚阶段对齐,留给剩余层将 Query 映射到 MLLM 空间的空间很小,因为文本编码器 产生的文本嵌入与 MLLM 不同,这可能阻碍了描述生成性能。因此,在其他实验中,作者将 BLA 应用于对齐 Q-Former 前半部分层,在允许检测嵌入与 BEV 特征交互的同时,为映射到 MLLM 空间提供足够的容量。
对比学习目标. 作者比较了三种对齐训练目标:均方误差(MSE),负余弦相似度(Cos. Sim.),以及CLIP对比损失(CLIP)[32]。这些函数用于消融BLA和DCA目标。
如图5所示,作者在BLA目标上实证发现,MSE和CLIP目标优于Cos. Sim.。其中,MSE在所有描述和检测指标上均显示出微小的优势。因此,作者选择MSE作为BLA的目标。相比之下,对于DCA目标,如表6所示,CLIP目标在所有指标上均优于MSE和Cos. Sim.。
BLA和DCA的最优目标差异源于它们各自的对齐目标和要对齐的模态的性质。BLA专注于将BEV特征与语言表示对齐,其中通过MSE强加的直接对应关系是有效的。相比之下,DCA旨在在共享的 Prompt 空间内对检测和描述输出进行对齐,关键在于在两种模态的信息之间建立对应关系。例如,考虑描述为:“车辆后左后方大约7米处有一个交通锥。”在这里,检测输出应将边界框位置与“7米远在车辆后左后方”的空间描述进行对齐,而分类标签应与描述中的“交通锥”物体类别进行对应。利用对比学习目标,共享 Prompt 空间是有效的。
5 Conclusion
在本文中,作者介绍了一种名为MTA的新颖的多模态任务对齐框架,该框架弥合了鸟瞰图(BEV)感知与字幕生成任务之间的差距,显著提升了两个任务的表现。
MTA包含两个新颖的机制:BEV-语言对齐(BLA)和检测-字幕对齐(DCA)。
BLA利用多模态上下文学习机制来对齐基于BEV的视觉表示和场景理解与地面真实语言表示。DCA利用跨模态提示机制来对齐检测和字幕输出。
通过大量的定量和定性实验,作者展示了MTA在提升BEV感知和字幕生成任务性能方面的有效性。重要的是,MTA的对齐机制仅在训练期间激活,确保了在推理过程中不会产生额外的计算成本,这对于自动驾驶应用是一个关键因素。
参考文献
[0]. MTA: Multimodal Task Alignment for BEV Perception and Captioning.
知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧