港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

文摘 2024-08-06 08:16 上海

Projection：https://tonyxuqaq.github.io/projects/DriveGPT4/

Arxiv：https://arxiv.org/pdf/2310.01412

本期概述

哈喽大家早上好！今天又是调参的一天！提起端到端自动驾驶模型，大家总会联想到"不可解释性"。模型方法处理case的规则不可控的确是阻碍端到端模型上车的因素之一！

李小毛分享的这篇论文是由港大&华为诺亚联合发布的DriveGPT4！一种用于可解释的端到端自动驾驶系统的多模态大语言模型。DriveGPT4通过将视频、语音提示、控制信号Token化之后送入大语言模型，语言模型生成对人类问题的相应回答以及控制信号，再经过编码等步骤还原成为文字和控制信息，即可对车辆实现控制！

DriveGPT4主要的创新点如下：

多模态数据处理能力：DriveGPT4能够同时处理视频和文本数据，生成对人类查询的文本响应，并预测车辆的低级控制信号。
视觉指令调优数据集：DriveGPT4开发了一个新的视觉指令调优数据集，用于自动驾驶的解释性训练。
混合微调策略：DriveGPT4在混合微调阶段结合了通用视觉理解数据和特定任务的指令调优数据，这种策略不仅提升了模型的视觉理解能力，还增加了数据的多样性。
可解释性和可扩展性：DriveGPT4不仅能够描述和解释车辆的动作和原因，还能够通过零样本适应实现的泛化能力。其能够在没有针对特定任务或场景进行专门训练的情况下，成功处理和理解新的驾驶情境。

很有趣对吗！我们一起学习一下！

PipeLine

DriveGPT4的五个主要模块：视觉编码器（Visual Encoder）、投影器（Projector）、文本分词器（Text Tokenizer）、大型语言模型（Large Language Model）、文本去标记器（Text De-Tokenizer）。视觉编码器使用预训练的CLIP视觉编码器来提取视频帧的全局和局部特征。投影器的将视觉信息转换为可以在语言模型中处理的文本表示，确保多模态数据能够统一在语言模型中进行处理。文本分词器将用户的问题分解为模型可处理的标记，这些标记与视觉特征一起输入到大型语言模型中。大型语言模型根据多模态输入生成自然语言响应和车辆控制信号。文本去标记器将大型语言模型生成的标记转换回文本回答，以及车辆的控制信号（如速度和转向角）

１.视觉编码器（Visual Encoder）：直接使用模型CLIP（Contrastive Language–Image Pre-training）。

官方网站为：https://openai.com/index/clip/

Arxiv：https://arxiv.org/pdf/2103.00020

CLIP能够有效地实现了图像和文本之间的语义映射，使得模型能够在分类任务中直接进行准确的预测。CLIP模型通过对比学习的方法，联合训练图像编码器和文本编码器，以实现跨模态的理解和预测能力。在训练阶段，模型接收成对的图像和文本输入。图像编码器将图像转化为特定的嵌入向量，而文本编码器则将文本转化为相应的嵌入向量。通过对比学习，模型最大化正确图像-文本对之间的相似度，同时最小化不相关对之间的相似度，以此来捕捉图像和文本之间的语义关联。

２.视频编码器（Video tokenizer）：输入视频预训练的CLIP 视觉编码器进行特征提取。对于每个帧，视觉编码器生成一个特征矩阵，其中 257 代表特征维度，包括一个全局特征和 256 个局部特征。第一个通道代表帧的全局特征，用表示，其余 256 通道对应帧中的局部特征，用表示。因此，帧的特征表示可以分解为:

为了表示整个视频的时间序列特征，所有帧的全局特征通过串联操作组合在一起:

其中，表示特征的串联。时间特征表示整个视频在时间维度上的动态变化。接下来，视频的空间特征通过将所有局部特征进行池化操作得到:

最终，时间特征和空间特征都通过投影器（Projector）映射到文本域。

３.投影器（Projector）&文本去标记器（Text De-Tokenizer）。实现了将车辆控制信号 (如速度和转向角) 转换为语言模型可处理的文本信息。控制信号与文本共享相同的分词器（Tokenizer）。该模块允许控制信号通过文本嵌入到模型中，并且在输出时以文本形式提取。

对于一个给定的视频片段，其包含的车辆状态如速度和转向角变化被嵌入到输入文本中。模型基于这些多模态输入数据，预测下一个时间步的控制信号。

４.大型语言模型（Large Language Model）：直接使用开源的LLaMA 2模型。

官方网站为：https://llama.meta.com/llama2/

Arxiv：https://arxiv.org/pdf/2307.09288

Training

DriveGPT4的训练分为两个阶段：预训练阶段和混合微调阶段。

1.预训练阶段：这一阶段的重点是视频与文本之间的对齐，以帮助模型从广泛的视觉和语言场景中学习多模态表示。使用了来自CC3M数据集的59.3万图像-文本对和来自WebVid-2M数据集的70.3万视频-文本对进行训练。

在预训练过程中，CLIP视觉编码器和大型语言模型的权重保持固定状态，仅训练投影器（Projector）。

2.混合微调阶段：混合微调的目的在于利用通用的视觉理解数据和特定任务的数据共同训练模型，以增强DriveGPT4的视觉理解和问题回答能力。

DriveGPT4的语言模型与投影器一起进行训练。此阶段的训练数据包括56K来自BDD-X和ChatGPT生成的视频-文本指令跟随数据，以及223K由LLaVA和Valley生成的一般指令跟随数据。

Experiments

数据集与任务：实验使用BDD-X数据集，该数据集包含视频片段及其对应的文本注释，包括车辆动作描述、动作理由和控制信号。DriveGPT4在这些任务上进行了评估，包括：

车辆动作描述与理由：任务要求DriveGPT4生成对视频中车辆动作的文本描述，并解释车辆行为的原因。
控制信号预测：预测车辆在下一个时间步的速度和转向角。
问答能力评估：测试DriveGPT4在处理多样化文本问答（QA）任务中的表现，尤其是在灵活应对非固定格式问题的能力。

DriveGPT4在BDD-X测试集上的文本生成能力，包括动作描述、理由解释和综合文本生成。DriveGPT4在所有难度场景（Easy、Medium、Hard）和整体（All）上都超越了ADAPT，特别是在CIDEr、BLEU4（B4）、ROUGE等评价指标上取得了领先。例如，在综合文本生成任务上，DriveGPT4的CIDEr得分为102.71，BLEU4得分为19.00，而ADAPT分别为93.66和17.76。

DriveGPT4在速度和转向角预测中的表现。DriveGPT4在速度预测中显著降低了均方根误差（RMSE），从ADAPT的3.02降低至1.30，并在所有阈值下提高了准确率（Aτ）。在转向角预测中，DriveGPT4的RMSE也从ADAPT的11.98降低到8.98，并且在A0.1、A0.5、A1.0和A5.0指标上均有明显提升。

问题：当前自车的动作是什么？回答：车辆逐渐减速至停车。

问题：车辆为什么会这样行动？回答：因为前方交通没有移动。

问题：对驾驶员有什么建议？回答：根据视频，驾驶员应注意交通状况并相应地调整速度。可以观察到，车辆减速是对前方交通的响应。驾驶员还应与其他车辆（如汽车和公交车）保持安全距离，以确保行驶平稳安全。

问题：当前自车的动作是什么？回答：车辆在十字路口停车，等待左转。

问题：车辆为什么会这样行动？回答：因为左转箭头是红灯。

问题：车辆有在转弯吗？回答：没有，车辆在视频中没有转弯或变道。每一帧中车辆的转向角记录为0度，表明车辆直行且没有明显的方向变化。

本期结语

李小毛理解，DriveGPT4为大模型参与车辆的决策过程提供了解释，这种解释有利于端到端模型在车端的调试和部署！

往期回顾

GaussianBEV：首次将3D Gaussian引入BEV感知应用

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉