Projection:https://tonyxuqaq.github.io/projects/DriveGPT4/
Arxiv:https://arxiv.org/pdf/2310.01412
本期概述
哈喽大家早上好!今天又是调参的一天!提起端到端自动驾驶模型,大家总会联想到"不可解释性"。模型方法处理case的规则不可控的确是阻碍端到端模型上车的因素之一!
李小毛分享的这篇论文是由港大&华为诺亚联合发布的DriveGPT4!一种用于可解释的端到端自动驾驶系统的多模态大语言模型。DriveGPT4通过将视频、语音提示、控制信号Token化之后送入大语言模型,语言模型生成对人类问题的相应回答以及控制信号,再经过编码等步骤还原成为文字和控制信息,即可对车辆实现控制!
DriveGPT4主要的创新点如下:
多模态数据处理能力:DriveGPT4能够同时处理视频和文本数据,生成对人类查询的文本响应,并预测车辆的低级控制信号。 视觉指令调优数据集:DriveGPT4开发了一个新的视觉指令调优数据集,用于自动驾驶的解释性训练。 混合微调策略:DriveGPT4在混合微调阶段结合了通用视觉理解数据和特定任务的指令调优数据,这种策略不仅提升了模型的视觉理解能力,还增加了数据的多样性。 可解释性和可扩展性:DriveGPT4不仅能够描述和解释车辆的动作和原因,还能够通过零样本适应实现的泛化能力。其能够在没有针对特定任务或场景进行专门训练的情况下,成功处理和理解新的驾驶情境。
PipeLine
DriveGPT4的五个主要模块:视觉编码器(Visual Encoder)、投影器(Projector)、文本分词器(Text Tokenizer)、大型语言模型(Large Language Model)、文本去标记器(Text De-Tokenizer)。视觉编码器使用预训练的CLIP视觉编码器来提取视频帧的全局和局部特征。投影器的将视觉信息转换为可以在语言模型中处理的文本表示,确保多模态数据能够统一在语言模型中进行处理。文本分词器将用户的问题分解为模型可处理的标记,这些标记与视觉特征一起输入到大型语言模型中。大型语言模型根据多模态输入生成自然语言响应和车辆控制信号。文本去标记器将大型语言模型生成的标记转换回文本回答,以及车辆的控制信号(如速度和转向角)
1.视觉编码器(Visual Encoder):直接使用模型CLIP(Contrastive Language–Image Pre-training)。
官方网站为:https://openai.com/index/clip/
Arxiv:https://arxiv.org/pdf/2103.00020
CLIP能够有效地实现了图像和文本之间的语义映射,使得模型能够在分类任务中直接进行准确的预测。CLIP模型通过对比学习的方法,联合训练图像编码器和文本编码器,以实现跨模态的理解和预测能力。在训练阶段,模型接收成对的图像和文本输入。图像编码器将图像转化为特定的嵌入向量,而文本编码器则将文本转化为相应的嵌入向量。通过对比学习,模型最大化正确图像-文本对之间的相似度,同时最小化不相关对之间的相似度,以此来捕捉图像和文本之间的语义关联。
DriveGPT4的训练分为两个阶段:预训练阶段和混合微调阶段。
1.预训练阶段:这一阶段的重点是视频与文本之间的对齐,以帮助模型从广泛的视觉和语言场景中学习多模态表示。使用了来自CC3M数据集的59.3万图像-文本对和来自WebVid-2M数据集的70.3万视频-文本对进行训练。
在预训练过程中,CLIP视觉编码器和大型语言模型的权重保持固定状态,仅训练投影器(Projector)。
2.混合微调阶段:混合微调的目的在于利用通用的视觉理解数据和特定任务的数据共同训练模型,以增强DriveGPT4的视觉理解和问题回答能力。
DriveGPT4的语言模型与投影器一起进行训练。此阶段的训练数据包括56K来自BDD-X和ChatGPT生成的视频-文本指令跟随数据,以及223K由LLaVA和Valley生成的一般指令跟随数据。
数据集与任务:实验使用BDD-X数据集,该数据集包含视频片段及其对应的文本注释,包括车辆动作描述、动作理由和控制信号。DriveGPT4在这些任务上进行了评估,包括:
车辆动作描述与理由:任务要求DriveGPT4生成对视频中车辆动作的文本描述,并解释车辆行为的原因。
控制信号预测:预测车辆在下一个时间步的速度和转向角。
问答能力评估:测试DriveGPT4在处理多样化文本问答(QA)任务中的表现,尤其是在灵活应对非固定格式问题的能力。
DriveGPT4在BDD-X测试集上的文本生成能力,包括动作描述、理由解释和综合文本生成。DriveGPT4在所有难度场景(Easy、Medium、Hard)和整体(All)上都超越了ADAPT,特别是在CIDEr、BLEU4(B4)、ROUGE等评价指标上取得了领先。例如,在综合文本生成任务上,DriveGPT4的CIDEr得分为102.71,BLEU4得分为19.00,而ADAPT分别为93.66和17.76。
DriveGPT4在速度和转向角预测中的表现。DriveGPT4在速度预测中显著降低了均方根误差(RMSE),从ADAPT的3.02降低至1.30,并在所有阈值下提高了准确率(Aτ)。在转向角预测中,DriveGPT4的RMSE也从ADAPT的11.98降低到8.98,并且在A0.1、A0.5、A1.0和A5.0指标上均有明显提升。
问题:当前自车的动作是什么?回答:车辆逐渐减速至停车。
问题:车辆为什么会这样行动?回答:因为前方交通没有移动。
问题:对驾驶员有什么建议?回答:根据视频,驾驶员应注意交通状况并相应地调整速度。可以观察到,车辆减速是对前方交通的响应。驾驶员还应与其他车辆(如汽车和公交车)保持安全距离,以确保行驶平稳安全。
问题:当前自车的动作是什么?回答:车辆在十字路口停车,等待左转。
问题:车辆为什么会这样行动?回答:因为左转箭头是红灯。
问题:车辆有在转弯吗?回答:没有,车辆在视频中没有转弯或变道。每一帧中车辆的转向角记录为0度,表明车辆直行且没有明显的方向变化。