基于BLIP-2 融合视觉信息与轨迹规划信息进行空间融合,用于自动驾驶的多模态大语言模型的轨迹规划

文摘   2024-11-19 07:02   中国香港  

Abstract

最近,端到端风格的自动驾驶模型得到了发展。然而,这些模型从感知到控制车辆的决策过程缺乏解释性,使乘客感到不安。为了解决这一问题,构建能够生成描述车辆未来行为及其原因的字幕模型是一种有效的方式。然而,现有方法由于基于瞬时控制信号训练模型,导致生成的推理文本无法充分反映车辆的未来规划行为。本研究提出了一种新的推理模型,将车辆的未来规划轨迹作为输入以解决此问题,同时构建了新的数据集用于验证。

 欢迎加入自动驾驶实战群


Introduction

自 2010 年 DARPA Grand Challenge 以来,自动驾驶领域的研究快速发展。深度学习的进步显著提升了目标检测和语义分割等任务的性能,为自动驾驶研究提供了助力。典型的自动驾驶系统采用模块化结构,包括定位、感知、预测、规划和控制等组件。然而,近年来一种端到端方法兴起,该方法通过传感器输入直接输出控制信号,避免了模块化系统中各模块累计误差的缺陷,但其决策过程不透明,这会让乘客感到不安。

为了缓解这一问题,近年来一些研究引入了大语言模型(LLM),如 GPT-4,用于生成描述车辆行为及其原因的字幕。然而,现有方法仅能描述当前或过去的行为,无法展现对未来行为的解释。

本文方法概述
为解决这一局限,我们提出了一种将视觉图像与未来驾驶规划(轨迹规划信息)结合的方法,并通过融合后的特征生成更准确的车辆行为及原因描述字幕。为此,我们创建了一个新的数据集,包含轨迹规划信息及其对应的字幕。不同的轨迹规划会影响车辆的关注点。例如:

如果车辆计划在前方停车,则会关注与前方车辆的距离。
如果计划通过绕行前车继续前进,则需关注周围行人及邻近车道的其他车辆。

3.Method

3.1 总览

如图1所示,本文提出的方法基于 BLIP-2 ,包括轨迹规划信息的坐标转换模块、图像-轨迹编码器(Image-Trajectory Encoder)、Q-Former、语言投影模块,以及一个 LLM 解码器。轨迹规划信息包含车辆的未来轨迹、一对道路边界和一对车道线。通过坐标转换模块,将其转换为轨迹图像。在图像-轨迹编码器中,输入车辆前置摄像头的图像和车辆轨迹图像,提取融合后的特征。这些特征通过 BLIP-2 的 Q-Former 和语言投影模块,最后由 LLM 解码器输出车辆行为的解释及其理由。

3.2 轨迹规划信息

车辆自动驾驶系统在第 i 帧生成的未来轨迹 、道路边界 和车道线  是一组以笛卡尔坐标系表示的空间坐标,形式为:
其中,TTT 是总帧数,NNN 是坐标点的数量。在 DriveGPT4 中,轨迹规划信息被视为文本输入到多模态 LLM。然而,在本文提出的流程中,这些坐标通过透视投影转换,并经过平移和旋转操作后,转化为图像坐标系上的点。随后,这些点被连接,绘制成具有与前置摄像头图像相同视角的轨迹图像。

各线条被绘制为不同颜色。例如,路边界对绘制为黄色,车道线绘制为蓝色。此外,为保留轨迹的速度信息,轨迹线的颜色会随车辆速度变化:快速用红色表示,缓慢用绿色表示。

3.3 图像-轨迹编码器

将轨迹规划信息与前置摄像头图像的视觉信息相连接是关键。本文提出了三种架构来实现图像-轨迹编码器,如图2所示:

拼接架构(Concatenated)。此架构包含两个基于 BLIP-2 的图像编码器。其中一个用于提取前置摄像头图像特征,另一个提取轨迹图像特征。随后将两组特征拼接后输出。在实验中,每个图像编码器输出 257 个特征查询,每个查询的维度为 1408。拼接后的特征维度为 514×1408。该方法能够简单地将轨迹规划信息传递给后续模块。

叠加架构(Overlaid)。在叠加方法中,将轨迹图像直接叠加在前置摄像头图像上。叠加后的图像输入到一个图像编码器中,提取出包含视觉信息和轨迹规划信息的综合特征。由于轨迹信息直接嵌入到图像中,因此无需修改 BLIP-2 模型的原始架构。

交叉注意力架构(Cross-attention)。与拼接方法一样,该方法从两个图像编码器中提取特征,但融合前置摄像头图像和轨迹图像特征的方式不同。此架构中包含交叉注意力层,其中视觉信息特征作为查询(queries)输入,轨迹规划信息特征作为键(keys)和值(values)。通过特征间的相互作用,获得融合特征。

4.Experiment

定量评估
我们在自建的数据集上训练并测试了所提出模型的性能。描述生成任务的性能通过 BLEU-4和 ROUGE-L指标进行评估。BLEU-4 评估生成句子的精确度,而 ROUGE-L 评估其召回率。这些指标不仅针对完整句子进行评估,还细化到动作描述和原因说明的句子部分。

表 1 展示了基线模型与所提模型的定量结果。在所有所提模型中,BLEU-4 和 ROUGE-L 指标均优于基线模型,这表明将轨迹规划信息作为模型输入产生了积极影响。叠加模型在动作解释部分表现更佳,而在原因说明部分却不及拼接模型。其原因可以解释如下:

叠加模型能够通过考虑摄像头图像与轨迹规划信息的空间关系,显式结合两者,这有助于动作解释。但由于叠加的线条会覆盖摄像头图像上的部分信息(如前车或行人),导致原因说明的效果不佳。

交叉注意力模型解决了上述问题,在动作解释和原因说明的生成任务中均取得了最佳得分。

定性评估
图 4 展示了基线模型与所提模型结果的差异。在图中场景中,自动驾驶车辆前方有足够空间,车辆正在匀速直线前进。

基线模型无法理解车辆当前状态,生成了错误的动作解释。
拼接模型和叠加模型能够识别出车辆正在前进,但无法完全捕捉其行为与周围环境的关系。

只有交叉注意力模型能够精确解释车辆的动作及其理由。
虽然图 4 展现了所提方法的有效性,但也存在局限性。例如,在图 5 的场景中,车辆正在向右斜向前方直行,并因前方拥堵而减速。但无论是基线模型还是所提模型,都未能正确捕捉前方车辆的行为,错误地描述其加速或停车。原因在于,仅凭单帧图像(缺少时间信息)难以准确估计目标的时空行为。

关于交叉注意力层的额外消融研究
我们提出的交叉注意力模型中,使用摄像头图像作为查询(queries),轨迹规划信息作为键(keys)和值(values),如 3.3 节所述。然而,对于选择哪些特征作为查询、键或值仍存在讨论。

在 BLOS-BEV中,SD 地图和视觉 BEV 特征进行了融合,并通过将 SD 地图特征作为查询、视觉 BEV 特征作为键和值取得了出色结果。本文的交叉注意力结构使用了类似概念。因此,我们探讨了查询、键和值不同选择对结果的影响。表 2 展示了实验结果。

当摄像头图像作为查询,轨迹规划信息作为键和值时,模型表现更好。轨迹信息通常更简单且更结构化,因此其特征不易受到背景噪声干扰。模型能够更容易提取与图像查询高度相关的轨迹部分,并利用这些作为值的轨迹生成更清晰、更集中的输出特征。

如果将轨迹规划信息作为查询,摄像头图像作为键和值,即使摄像头图像的特征复杂且细节丰富,模型因轨迹查询的简单性无法充分利用这些特性,生成的注意力分布相关性较低。即使图像包含大量有用信息,输出特征中仍会携带更多背景噪声或无关信息。这导致使用轨迹规划信息作为查询的模型表现低于摄像头图像作为查询的模型。

结论

本文主要贡献如下:

跨模态融合:提出一种通过交叉注意力将视觉信息与轨迹规划信息进行空间融合的新方法。
改进字幕生成:基于 BLIP-2 视觉-语言模型,利用融合特征生成描述和解释车辆未来行为的字幕。
数据集构建:编译并标注一个新数据集,包括视频、轨迹规划信息及其字幕。

文章引用:Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving


最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。



Ai fighting
全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
 最新文章