Projection:https://arxiv.org/pdf/2402.01105
本期概述
哈咯大家周五好!假期的曙光就在眼前!
本期我们继续分享自动驾驶基础模型的综述:A Survey for Foundation Models in Autonomous Driving。由于这是一篇21页的长文,我们预计使用两期进行介绍!
上期我们学习了大语言模型在自动驾驶中的应用,插班生请复习!
接下来我们学习视觉基础模型以及多模态模型在自动驾驶任务中的应用以及挑战!一起来学习一下~
Overview
基础模型分为三大类:大语言模型(Large Language Models)、视觉基础模型(Vision Foundation Models)和多模态基础模型(Multi-modal Foundation Models)。大语言模型主要应用于规划、轨迹预测、仿真与测试、用户界面与个性化等领域。视觉基础模型则主要用于感知、视频生成与世界建模。多模态基础模型整合来自多模态来进行感知与规划、视觉理解与推理。
视觉基础模型在自动驾驶中的应用方向
(1)感知基础模型:主要是使用基础SAM(Segment-Anything Model),进行车端的目标检测以及分割任务。
参考文献:
3D对象检测。利用SAM的零样本转移能力来生成分割掩码和2D框,随后使用这些激光雷达点的垂直属性在2D框内生成3D框。Unified Segmentation and Tracking with SAM and Grounding-DINO
通过SAM引导的特征对齐方法学习来自不同领域的3D点云特征的统一表示。Segment-Anything Model for 3D Object Detection
利用视频帧之间的时间一致性,将SAM和Grounding-DINO的结合,创建一个统一的分割和跟踪框架。SAM-Guided Feature Alignment for 3D Segmentation
(2)生成模型和世界模型:我们常说的世界模型,就是在给定当前世界状态并依据环境输入的情况下,模型预测下一个世界状态,并使用扩散技术解码高度逼真的驾驶场景。
参考文献:
使用摄像头图像、文本描述和车辆控制信号作为输入,并预测下一帧。同步使用了预训练的DINO模型的输出和余弦相似性损失,以提取更多语义知识。GAIA-1: Realistic Driving Video Generation with World Models
除了上述的输入外,还使用更结构化的交通信息作为输入,如HDMap和3D对象框。DriveDreamer: World Model and Diffusion Model for Autonomous Driving Video Generation
使用离散扩散来实现点云预测任务。Point Cloud-based World Model for Forecasting
世界模型生成流程。多个输入模态开始(图像、车辆动作、道路结构、其他代理,文本描述)。通过自回归预测模型,整合到当前的世界状态中(World State at T),生成下一个时间点的世界状态(World State at T+1)。逐步预测出的世界状态被输入到视频扩散解码器中,生成未来的视频帧。
视觉基础模型在自动驾驶中应用展望
(1)局限性:尽管SAM等模型在2D图像分割任务中表现出色,但在3D自动驾驶感知任务(如目标检测和分割)中,其零样本转移能力不足。
同时,现有的公开数据集规模还不足以覆盖所有可能的长尾场景,因此还无法训练出一个足够强大的基础模型来应对所有场景。
(2)展望:可以使用知识蒸馏的提高特征提取效果,帮助模型更好地整合语义信息。
参考文献:
使用2D视觉基础模型进行知识蒸馏,以帮助自动驾驶感知模型更好地整合语义信息。Knowledge Distillation for Vision Foundation Models
扩散模型在视频生成和点云预测任务的综述。Diffusion Models for Video Generation and Forecasting
视觉基础模型在自动驾驶中的应用方向
(1)多模态视觉理解和推理:使用多模态基础模型,可以缓解基于深度学习的预测和规划模型这种“黑箱”模型,解释性和调试能力较差的问题。
参考文献:
通过自然语言识别危险物体并提供建议的多模态基础模型。HiLM-D: Multi-modal Foundation Models for Risk Object Localization and Intention and Suggestion Prediction
通过融合视觉和语义信息来实现高水平的视觉问答任务。Talk2BEV: Bird's Eye View Representation with Visual and Semantic Information
将点云数据与大语言模型结合,用于理解3D环境并进行视觉问答。LiDAR-LLM: Combining Point Cloud Data with Large Language Models
使用视觉问答方法收集和解释车辆行为,生成结构化解释。Explaining Vehicle Actions Using Visual QA
(2)多模态预测和规划理解:这个很好理解啦,和上面一样,用文字的形式输出模型的预测以及规划中间特征。
DriveGPT4模型通过指令调优,生成可解释的自动驾驶行为。GPT-4Vision: Early Exploration in Perception and Planning Tasks
通过CLIP编码器和LLM权重微调的LLaVA模型,构建可解释的自动驾驶系统。LLaVA: End-to-end Interpretable Autonomous Driving System
视觉基础模型在自动驾驶中应用展望
多模态基础模型展示了在空间和视觉推理方面的能力。视觉和文本描述可以提供更丰富的语义信息,能够解决许多长尾检测问题(如特殊车辆的分类和对警察及交通指挥员手势信号的理解)。
但是,多模态模型,例如GPT-4V。由于该模型的预训练数据集仅包含来自网络的2D图像,其在利用多视角摄像头和激光雷达数据进行3D对象检测和定位时也表现出不足。
本期结语
两期内容完整的介绍了一篇综述长文!我们学习了大语言模型(Large Language Models)、视觉基础模型(Vision Foundation Models)和多模态基础模型(Multi-modal Foundation Models)三个研究热点在自动驾驶方向的最新研究内容,研究方法,目前的挑战以及研究展望!完结撒花!
往期回顾
理想汽车&中科院 | PlanAgent:使用MLLM的自动驾驶闭环运动规划
Co-Driver:使用Qwen-VL(通义千问)实现辅助驾驶
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!