大语言模型&多模态模型在自动驾驶中的应用综述（2）

文摘 2024-08-30 10:20 上海

Projection：https://arxiv.org/pdf/2402.01105

本期概述

哈咯大家周五好！假期的曙光就在眼前！

本期我们继续分享自动驾驶基础模型的综述：A Survey for Foundation Models in Autonomous Driving。由于这是一篇21页的长文，我们预计使用两期进行介绍！

上期我们学习了大语言模型在自动驾驶中的应用，插班生请复习！

被连续举报的第五天 | 自动驾驶基础模型的综述

接下来我们学习视觉基础模型以及多模态模型在自动驾驶任务中的应用以及挑战！一起来学习一下~

Overview

基础模型分为三大类：大语言模型（Large Language Models）、视觉基础模型（Vision Foundation Models）和多模态基础模型（Multi-modal Foundation Models）。大语言模型主要应用于规划、轨迹预测、仿真与测试、用户界面与个性化等领域。视觉基础模型则主要用于感知、视频生成与世界建模。多模态基础模型整合来自多模态来进行感知与规划、视觉理解与推理。

视觉基础模型在自动驾驶中的应用方向

（1）感知基础模型：主要是使用基础SAM（Segment-Anything Model），进行车端的目标检测以及分割任务。

参考文献：

3D对象检测。利用SAM的零样本转移能力来生成分割掩码和2D框，随后使用这些激光雷达点的垂直属性在2D框内生成3D框。Unified Segmentation and Tracking with SAM and Grounding-DINO

通过SAM引导的特征对齐方法学习来自不同领域的3D点云特征的统一表示。Segment-Anything Model for 3D Object Detection

利用视频帧之间的时间一致性，将SAM和Grounding-DINO的结合，创建一个统一的分割和跟踪框架。SAM-Guided Feature Alignment for 3D Segmentation

（2）生成模型和世界模型：我们常说的世界模型，就是在给定当前世界状态并依据环境输入的情况下，模型预测下一个世界状态，并使用扩散技术解码高度逼真的驾驶场景。

参考文献：

使用摄像头图像、文本描述和车辆控制信号作为输入，并预测下一帧。同步使用了预训练的DINO模型的输出和余弦相似性损失，以提取更多语义知识。GAIA-1: Realistic Driving Video Generation with World Models

除了上述的输入外，还使用更结构化的交通信息作为输入，如HDMap和3D对象框。DriveDreamer: World Model and Diffusion Model for Autonomous Driving Video Generation

使用离散扩散来实现点云预测任务。Point Cloud-based World Model for Forecasting

世界模型生成流程。多个输入模态开始（图像、车辆动作、道路结构、其他代理，文本描述）。通过自回归预测模型，整合到当前的世界状态中（World State at T），生成下一个时间点的世界状态（World State at T+1）。逐步预测出的世界状态被输入到视频扩散解码器中，生成未来的视频帧。

视觉基础模型在自动驾驶中应用展望

（1）局限性：尽管SAM等模型在2D图像分割任务中表现出色，但在3D自动驾驶感知任务（如目标检测和分割）中，其零样本转移能力不足。

同时，现有的公开数据集规模还不足以覆盖所有可能的长尾场景，因此还无法训练出一个足够强大的基础模型来应对所有场景。

（2）展望：可以使用知识蒸馏的提高特征提取效果，帮助模型更好地整合语义信息。

参考文献：

使用2D视觉基础模型进行知识蒸馏，以帮助自动驾驶感知模型更好地整合语义信息。Knowledge Distillation for Vision Foundation Models

扩散模型在视频生成和点云预测任务的综述。Diffusion Models for Video Generation and Forecasting

视觉基础模型在自动驾驶中的应用方向

（1）多模态视觉理解和推理：使用多模态基础模型，可以缓解基于深度学习的预测和规划模型这种“黑箱”模型，解释性和调试能力较差的问题。

参考文献：

通过自然语言识别危险物体并提供建议的多模态基础模型。HiLM-D: Multi-modal Foundation Models for Risk Object Localization and Intention and Suggestion Prediction

通过融合视觉和语义信息来实现高水平的视觉问答任务。Talk2BEV: Bird's Eye View Representation with Visual and Semantic Information

将点云数据与大语言模型结合，用于理解3D环境并进行视觉问答。LiDAR-LLM: Combining Point Cloud Data with Large Language Models

使用视觉问答方法收集和解释车辆行为，生成结构化解释。Explaining Vehicle Actions Using Visual QA

（２）多模态预测和规划理解：这个很好理解啦，和上面一样，用文字的形式输出模型的预测以及规划中间特征。

DriveGPT4模型通过指令调优，生成可解释的自动驾驶行为。GPT-4Vision: Early Exploration in Perception and Planning Tasks

通过CLIP编码器和LLM权重微调的LLaVA模型，构建可解释的自动驾驶系统。LLaVA: End-to-end Interpretable Autonomous Driving System

视觉基础模型在自动驾驶中应用展望

多模态基础模型展示了在空间和视觉推理方面的能力。视觉和文本描述可以提供更丰富的语义信息，能够解决许多长尾检测问题（如特殊车辆的分类和对警察及交通指挥员手势信号的理解）。

但是，多模态模型，例如GPT-4V。由于该模型的预训练数据集仅包含来自网络的2D图像，其在利用多视角摄像头和激光雷达数据进行3D对象检测和定位时也表现出不足。

本期结语

两期内容完整的介绍了一篇综述长文！我们学习了大语言模型（Large Language Models）、视觉基础模型（Vision Foundation Models）和多模态基础模型（Multi-modal Foundation Models）三个研究热点在自动驾驶方向的最新研究内容，研究方法，目前的挑战以及研究展望！完结撒花！

往期回顾

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉