CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

文摘 2024-07-23 15:04 上海

Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models

https://github.com/xmed-lab/NuInstruct

本期概述

多模态大语言模型，这个词看过上一篇推送的同学想必有些熟悉，根据可靠信息透漏，特斯拉的FSD v13将多模态指令作为中间数据引入端到端自动驾驶模型中，似乎又要掀起行业界的一股新潮。相似的，本期图文介绍的研究成果将面向指令的BEV特征与现有的MLLM集成，用于提升模型在感知、预测、风险评估、带推理的规划等多项任务上的性能。

提出的基于语言的整体自动驾驶的Nuduct数据集的例子。(a)输入的是多视图的视频。(b)各种任务以指令-响应格式呈现。共有4个任务，共包含17个子任务。

Pipeline

提出的BEV-InMLLM的总体Pipeline。(a)为处理多视图视频而定制的基本多模态大语言模型（MLLM）。(b)鸟瞰图注入模块（BEV-In）将BEV表示注入到基础MLLM中，以提高对自动驾驶的理解

BEV-InMLLM框架包括两个关键模块：基础多视图多模态大型语言模型（MVMLLM）和鸟瞰图注入模块（BEV-In）。这些模块通过Transformer结构设计，并使用任务查询作为连接各节点的接口，能够有效地处理和整合输入的多视角视频特征和指令信息，从而提高系统的整体性能和对复杂场景的理解能力。

1.多视图MLLM（MVMLLM）：现有的多模态大模型 (MLLMs) 通常包含三个部分: 视觉编码器用于接收视觉输入；连接模块（如 Q-Former）将视觉表示转化为与语言对齐的视觉令牌；大语言模型 (LLM) 用于接收视觉和语言指令令牌生成响应。由于这些模型只能接收单视角输入，BEV-InMLLM提出了一种基线模型，称为多视图MLLM（MV-MLLM），使当前的MLLMs能够处理多视角视频。

具体而言，对于来自特定视角的视频，BEV-InMLLM将其输入视觉编码器，然后通过连接模块获得视觉令牌，可以表示为

其中，和分别是视觉令牌的数量和维度。然后，引入一个多视图Q-Former（类似于 BLIP-2) 来从中捕获多视图视觉语义，同步将沿视角维度连接起来，得到:

多视图Q-Former的输入包含一组个可学习的多视图查询，它们通过交叉注意力与进行交互，公式如下:

然后，输出的经过线性投影（图中省略），并输入到LLM中。需要注意的是，在BEV-InMLLM的MVMLLM中，只有多视图Q-Former是可训练的（图中有火苗的地方），其他参数都是冻结的，以完全保留预训练模型的知识。

2.鸟瞰图注入多模态大语言模型（BEV-Injected MLLM）：通过物理变换（例如LSS）从多视角特征构建BEV的过程会受到当前多模态大语言模型 (MLLM) 中视觉变换器（ViTs）感知能力的限制。此外，替换成特定的BEV 主干网络（如ResNet或Swin Transformer）会减弱视觉语言对齐，而有限的输入分辨率会产生难以扩展到高分辨率BEV表示的小特征图。

为了解决这些问题，使用一个鸟瞰图注入模块 (BEV-In) 以数据高效和资源轻量的方式获取与大语言模型 (LLM) 对齐的BEV信息。BEVInMLLM的架构包括两个关键组件：指令感知的BEV Q-Former（Instruction-aware BEV Q-Former）和BEV注入模块（injection module）。

指令感知的BEV Q-Former （Instruction-aware BEV Q-Former）：用于忽略与给定指令无关的冗余信息。指令感知的BEV QFormer的输入查询包含两部分：与指令相关的指令标记和用于从BEV特征中提取相关信息的可学习BEV查询。这个过程定义如下:

其中表示拼接，是BEV查询结果及其数量，

是指令感知的BEV标记。

注入模块（injection module）通过交叉注意力将多视角特征与指令感知的BEV标记融合:

增强后同时包含：(i) 用于场景理解的时序多视角提示和 (ii) 用于精确感知和规划任务的空间感知BEV信息。本文通过仅将BEV Q-Former和注入模块设为可训练（图中有火苗的地方），使得BEV-In模块高效，而 BEV特征提取器保持冻结以维持特征质量。

Experiments

BEV-InMLLM的实验主要在NuInstruct数据集上进行评估。该数据集包含91,000对多视角视频问答，涵盖17个子任务，包括感知、预测、风险评估和带推理的规划。BEV-InMLLM在各项任务上显著优于现有的多模态大语言模型（MLLMs），平均提升了9%。

在NuInstruct数据集上的性能比较。最优得分以粗体标出。注意，所有模型在相同设置下都在NuInstruct的训练集上进行了微调。‘∗’表示使用了时空适配器，使基于图像的MLLM能够接收视频输入。为简洁起见，使用缩写来表示子任务的名称，而不是它们的全称，即Dis = 距离，Sped = 速度，# Ins = 实例数量，Clos = 最近，Sta = 状态，SameR = 在同一条道路上，Mot = 运动，App = 接近，LaneC = 车道变换，Onco = 迎面而来，Cro = 穿越，Over = 超车，Brak = 刹车。最佳结果以粗体报告。

NuInstruct数据集同样是本篇文章重要的贡献点之一，在此小编为大家简单总结一下：

NuInstruct数据集旨在为多视角自动驾驶系统提供高质量的训练和评估数据。该数据集由多视角视频问答对组成，涵盖了自动驾驶中的多种任务场景和需求。

1.数据量：包含91,000对多视角视频问答对。

2.子任务：涵盖17个子任务，包括感知、预测、风险评估和带推理的规划。感知任务：涉及目标检测、多视角感知等。预测任务：涉及对周围物体行为的预测。风险评估：涉及对潜在风险的检测。规划任务：涉及基于多视角和时间数据的安全路径规划。

3.数据集特性：多视角视频：数据集中的视频来自不同视角，提供了丰富的空间和时间信息，有助于模型全面理解驾驶环境。多模态数据：数据集包含了视觉、空间和语言信息的结合，能够帮助模型在多模态输入下进行综合判断和决策。高质量标注：每个问答对都经过高质量标注，确保数据的准确性和可靠性。

Nududict与现有的基于语言的驾驶数据集的比较。“Pw/R”表示带有推理的计划。NuDoudult提供各种任务和全面的信息（例如，包括多视图、时间、距离等），以全面了解自动驾驶。

Ideas

小毛觉得这种基于指令的自动驾驶构架确实有一定的合理性，简单的总结了几点，欢迎大佬们批评！

1.增强决策透明性：传统的Rule_Based方法好处就是case可解，端到端方法很容易造成，明知道在某种场景下系统出错，但是无法解决的尴尬。面向指令的架构允许系统生成可解释的决策步骤。这使得系统能够解释其行为，帮助我们理解系统为何做出某种决策，进而增强系统的可解释性和信任度。

2.处理复杂场景：面向指令的架构能将复杂的驾驶场景分解成一系列可操作的步骤。这有助于系统更好地处理复杂的交通状况，例如多车道变道、避让行人和紧急停车等。

3.高效的数据利用：通过将驾驶任务转化为指令，系统可以利用已有的驾驶数据进行训练。这种方法能够高效地利用数据，提升系统的学习效果和性能。这一点和我们人类学习有点像，对于特定的任务，学习特定的数据。

4.灵活性和适应性：面向指令的架构可以更灵活地适应不同的驾驶场景和需求。例如，不同的驾驶指令可以对应不同的驾驶风格或策略，系统能够根据具体情况选择最优的指令序列。

5.便于扩展和维护：面向指令的架构具有较好的模块化特性，便于扩展和维护。新功能或改进可以通过增加或调整指令模块实现，而不需要对整个系统进行大幅改动。

6.增强的多模态融合能力：面向指令的架构能够更好地结合多模态数据（如视觉、雷达、激光雷达等），提升系统的感知和理解能力。通过统一的指令框架，多模态信息可以更加高效地融合和处理。

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通，点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉