港大&华为诺亚 | DriveGPT4:可解释的端到端自动驾驶!

文摘   2024-08-06 08:16   上海  

Projection:https://tonyxuqaq.github.io/projects/DriveGPT4/

Arxiv:https://arxiv.org/pdf/2310.01412

本期概述

喽大家早上好!今天又是调参的一天!提起端到端自动驾驶模型,大家总会联想到"不可解释性"。模型方法处理case的规则不可控的确是阻碍端到端模型上车的因素之一!

李小毛分享的这篇论文是由港大&华为诺亚联合发布的DriveGPT4!一种用于可解释的端到端自动驾驶系统的多模态大语言模型。DriveGPT4通过将视频、语音提示、控制信号Token化之后送入大语言模型,语言模型生成对人类问题的相应回答以及控制信号,再经过编码等步骤还原成为文字和控制信息,即可对车辆实现控制!

DriveGPT4主要的创新点如下:

  1. 多模态数据处理能力:DriveGPT4能够同时处理视频和文本数据,生成对人类查询的文本响应,并预测车辆的低级控制信号。
  2. 视觉指令调优数据集:DriveGPT4开发了一个新的视觉指令调优数据集,用于自动驾驶的解释性训练。
  3. 混合微调策略:DriveGPT4在混合微调阶段结合了通用视觉理解数据和特定任务的指令调优数据,这种策略不仅提升了模型的视觉理解能力,还增加了数据的多样性。
  4. 可解释性和可扩展性:DriveGPT4不仅能够描述和解释车辆的动作和原因,还能够通过零样本适应实现的泛化能力。其能够在没有针对特定任务或场景进行专门训练的情况下,成功处理和理解新的驾驶情境。
很有趣对吗!我们一起学习一下!

PipeLine

DriveGPT4的五个主要模块:视觉编码器(Visual Encoder)、投影器(Projector)、文本分词器(Text Tokenizer)、大型语言模型(Large Language Model)、文本去标记器(Text De-Tokenizer)。视觉编码器使用预训练的CLIP视觉编码器来提取视频帧的全局和局部特征。投影器的将视觉信息转换为可以在语言模型中处理的文本表示,确保多模态数据能够统一在语言模型中进行处理。文本分词器将用户的问题分解为模型可处理的标记,这些标记与视觉特征一起输入到大型语言模型中。大型语言模型根据多模态输入生成自然语言响应和车辆控制信号。文本去标记器将大型语言模型生成的标记转换回文本回答,以及车辆的控制信号(如速度和转向角)

1.视觉编码器(Visual Encoder):直接使用模型CLIP(Contrastive Language–Image Pre-training)。

官方网站为:https://openai.com/index/clip/

Arxiv:https://arxiv.org/pdf/2103.00020

CLIP能够有效地实现了图像和文本之间的语义映射,使得模型能够在分类任务中直接进行准确的预测。CLIP模型通过对比学习的方法,联合训练图像编码器和文本编码器,以实现跨模态的理解和预测能力。在训练阶段,模型接收成对的图像和文本输入。图像编码器将图像转化为特定的嵌入向量,而文本编码器则将文本转化为相应的嵌入向量。通过对比学习,模型最大化正确图像-文本对之间的相似度,同时最小化不相关对之间的相似度,以此来捕捉图像和文本之间的语义关联。

2.视频编码器(Video tokenizer)输入视频 预训练的CLIP 视觉编码器进行特征提取。对于每个帧 ,视觉编码器生成一个特征矩阵 ,其中 257 代表特征维度,包括一个全局特征和 256 个局部特征。第一个通道代表帧 的全局特征,用 表示,其余 256 通道对应帧中的局部特征,用 表示。因此,帧 的特征表示可以分解为:
为了表示整个视频的时间序列特征,所有帧的全局特征通过串联操作组合在一起:
其中, 表示特征的串联。时间特征 表示整个视频在时间维度上的动态变化。接下来,视频的空间特征通过将所有局部特征进行池化操作得到:
最终,时间特征 和空间特征 都通过投影器(Projector)映射到文本域。
3.投影器(Projector)&文本去标记器(Text De-Tokenizer)。实现了将车辆控制信号 (如速度和转向角) 转换为语言模型可处理的文本信息。控制信号与文本共享相同的分词器(Tokenizer)。该模块允许控制信号通过文本嵌入到模型中,并且在输出时以文本形式提取。
对于一个给定的视频片段,其包含的车辆状态如速度 和转向角变化 被嵌入到输入文本中。模型基于这些多模态输入数据,预测下一个时间步的控制信号
4.大型语模型(Large Language Model):直接使用开源的LLaMA 2模型。
官方网站为:https://llama.meta.com/llama2/
Arxiv:https://arxiv.org/pdf/2307.09288
Training

DriveGPT4的训练分为两个阶段:预训练阶段和混合微调阶段。

1.预训练阶段:这一阶段的重点是视频与文本之间的对齐,以帮助模型从广泛的视觉和语言场景中学习多模态表示。使用了来自CC3M数据集的59.3万图像-文本对和来自WebVid-2M数据集的70.3万视频-文本对进行训练。

在预训练过程中,CLIP视觉编码器和大型语言模型的权重保持固定状态,仅训练投影器(Projector)。

2.混合微调阶段合微调的目的在于利用通用的视觉理解数据和特定任务的数据共同训练模型,以增强DriveGPT4的视觉理解和问题回答能力。

DriveGPT4的语言模型与投影器一起进行训练。此阶段的训练数据包括56K来自BDD-X和ChatGPT生成的视频-文本指令跟随数据,以及223K由LLaVA和Valley生成的一般指令跟随数据。

Experiments

数据集与任务:实验使用BDD-X数据集,该数据集包含视频片段及其对应的文本注释,包括车辆动作描述、动作理由和控制信号。DriveGPT4在这些任务上进行了评估,包括:

  • 车辆动作描述与理由任务要求DriveGPT4生成对视频中车辆动作的文本描述,并解释车辆行为的原因。

  • 控制信号预测:预测车辆在下一个时间步的速度和转向角。

  • 问答能力评估测试DriveGPT4在处理多样化文本问答(QA)任务中的表现,尤其是在灵活应对非固定格式问题的能力。

DriveGPT4在BDD-X测试集上的文本生成能力,包括动作描述、理由解释和综合文本生成。DriveGPT4在所有难度场景(Easy、Medium、Hard)和整体(All)上都超越了ADAPT,特别是在CIDEr、BLEU4(B4)、ROUGE等评价指标上取得了领先。例如,在综合文本生成任务上,DriveGPT4的CIDEr得分为102.71,BLEU4得分为19.00,而ADAPT分别为93.66和17.76。

DriveGPT4在速度和转向角预测中的表现。DriveGPT4在速度预测中显著降低了均方根误差(RMSE),从ADAPT的3.02降低至1.30,并在所有阈值下提高了准确率(Aτ)。在转向角预测中,DriveGPT4的RMSE也从ADAPT的11.98降低到8.98,并且在A0.1、A0.5、A1.0和A5.0指标上均有明显提升。

问题:当前自车的动作是什么?回答:车辆逐渐减速至停车。

问题:车辆为什么会这样行动?回答:因为前方交通没有移动。

问题:对驾驶员有什么建议?回答:根据视频,驾驶员应注意交通状况并相应地调整速度。可以观察到,车辆减速是对前方交通的响应。驾驶员还应与其他车辆(如汽车和公交车)保持安全距离,以确保行驶平稳安全。

问题:当前自车的动作是什么?回答:车辆在十字路口停车,等待左转。

问题:车辆为什么会这样行动?回答:因为左转箭头是红灯。

问题:车辆有在转弯吗?回答:没有,车辆在视频中没有转弯或变道。每一帧中车辆的转向角记录为0度,表明车辆直行且没有明显的方向变化。

本期结语
李小毛理解,DriveGPT4为大模型参与车辆的决策过程提供了解释,这种解释有利于端到端模型在车端的调试和部署!
往期回顾
GaussianBEV:首次将3D Gaussian引入BEV感知应用
无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)
高度提炼 | DreamCar??严肃!这个可不是魅族汽车!在moving-froward场景中的3D车辆重建!
ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...
深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章