理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法

文摘   2024-08-17 14:43   上海  

Projection:https://tsinghua-mars-lab.github.io/DriveVLM/

Arxiv:https://arxiv.org/pdf/2402.12289

本期概述

哈喽大家周末快乐~

[理想汽车的自动驾驶处于什么水平?]

各厂都把自个的方案吹得满天乱坠,自媒体测试也大多是为了恰饭,所以理想汽车的智驾能力究竟几何?这个问题想必大家都特别好奇。

理想汽车从去年才开始发力自动驾驶,在此之前可一直是垫底的存在。。

我司团队在今年六月份测试了几个主流的自动驾驶方案,主要测试了相同工况下的路口决策能力和道路领航能力。理想的成绩差点给我们道心干碎了。。。理想的AD max 3.0在路口左右转,加速变道上表现非常优秀,全程人工介入接管的次数也最少。确实端到端自动驾驶模型在天然上就要比rule_based方法具有优越性。

本期李小毛和大家分享理想汽车发布的模型DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models。希望大家能够从中得到灵感!

DriveVLM系统包含三个主要模块:场景描述、场景分析和分层规划。这些模块分别对应于传统自动驾驶系统中的感知、预测和规划部分。与传统系统不同,DriveVLM通过语言模型进行推理,能够处理复杂的场景和长尾情况。创新点主要集中在以下几个方面:

  • 提出DriveVLM系统,用了视觉语言模型(VLMs)来增强自动驾驶系统的场景理解和规划能力

  • 提出DriveVLM-Dual系统,这是一个将DriveVLM与传统自动驾驶系统相结合的混合系统。

  • 定义了一个新任务——场景理解与规划(Scene Understanding for Planning, SUP),并提出了相应的评估指标。还设计了一个全面的数据挖掘和注释流程,用于构建SUP-AD数据集。

PipeLine

DriveVLM系统的整体架构及其与DriveVLM-Dual系统的集成方式。DriveVLM通过三个主要模块进行处理:场景描述(Scene Description)、场景分析(Scene Analysis)和分层规划(Hierarchical Planning)。下方,展示了DriveVLM-Dual的集成方式。DriveVLM-Dual通过3D感知(3D Perception)模块进行关键对象的空间推理,并通过运动预测(Motion Prediction)和轨迹规划(Trajectory Planning)模块实现高频率的轨迹优化。

DriveVLM
(1)场景描述(Scene Description):识别和描述驾驶环境中的关键要素。
首先对驾驶环境的总体情况进行语言化的描述,这包括天气、时间、道路类型和车道状况等几个关键维度。这些维度分别用符号表示为 ,其中:
表示天气情况,如晴天、雨天、雪天等。
表示时间,如白天或夜间。
表示道路类型,如城市道路或高速公路。
表示车道状况,如当前车道是否可通行、是否有障碍物等。
除了环境描述,场景描述模块还识别对当前驾驶场景最具影响力的关键对象,而不是简单地检测场景中所有的物体。每一个关键对象 都由类别 和近似的边界框坐标 所表示:
DriveVLM还特别强调长尾关键对象的识别,即那些在典型3D物体检测器中容易被忽略的物体,例如道路上的碎片或不常见的动物。
(2)场景分析(Scene Analysis):总结关键对象的属性和它们对自车辆的潜在影响,从而形成一个对当前驾驶场景的全面理解。
首先,对关键对象的特征进行多方面的描述。可以分为三个方面:静态属性 、运动状态 和特定行为
  • 静态属性  描述了对象的固有特性,这些特性不随时间变化,例如广告牌的视觉提示或卡车的超大货物。
  • 运动状态  描述对象在一段时间内的动态特征,包括位置、方向和动作。
  • 特定行为  指的是对象的特殊动作或手势。例如,警察的手势信号。
在对关键对象的特征进行分析后,系统还需要预测每一个关键对象对自车辆的潜在影响。包括阻碍自车辆的正常行驶路径、引发潜在的碰撞风险等。影响预测表示为:
其中 是一个综合考虑对象各方面特征的函数。
(3)分层规划(Hierarchical Planning):场景描述和分析的结果转化为具体的驾驶计划。分层规划模块主要分为三个阶段:元行动(Meta-actions)、决策描述(Decision Description)和轨迹路径点(Trajectory Waypoints)。
  • 元行动 (Meta-actions) :短期的驾驶策略,是车辆在当前驾驶情境下应采取的基本操作。元行动的集合可以表示为 ,其中每个 表示一个元行动,如加速、减速、左转、换道等。
  • 决策描述 (Decision Description) :对元行动的进一步细化,涉及更为详细的驾驶策略。决策描述包括三个要素: 行动 、主体 和持续时间 。行动 对应的是元行动,如"转弯"、"等待"或"加速"。主体 代表与之交互的对象,如行人、交通信号灯或特定车道。持续时间 指定了行动的时间维度。
  • 轨迹路径点(Trajectory Waypoints):将高层次的策略转换为车辆具体的行驶路径。路径点可以表示为一组坐标点的序列 ,其中每个 是一个包含位置 和时间 的元组,即

展示了DriveVLM系统通过分层的场景描述、对象识别和分析,最终生成详细的驾驶策略和路径规划

DriveVLM-Dual
DriveVLM-Dual系统的设计灵感来源于人脑的“慢思考”和“快思考”过程。在复杂的驾驶场景中,VLMs可以通过慢思考的方式进行深度场景分析和策略规划,但由于VLMs计算复杂且空间理解能力有限,在实际应用中难以满足实时性需求。为了弥补这一不足,DriveVLM-Dual系统引入了传统自动驾驶管道中的快速反应模块,形成一个既能进行深度分析又能实现高频实时规划的混合系统。
(1)3D感知的集成:通过3D感知模块对驾驶场景中的对象进行检测。3D感知模块检测到的对象记为 ,其中 表示第 个对象的类别, 表示该对象的3D边界框。
这些3D边界框随后被投影到2D图像平面上,得到对应的2D边界框 。系统将2D边界框与由DriveVLM识别出的关键对象 进行匹配。如果对象的类别一致且重叠度 (交并比,IoU)超过某个阈值 ,则认为这些对象是匹配的:

模块中,对于匹配对象,系统利用它们的3D中心坐标、朝向和历史轨迹进行分析; 而对于未匹配对象,则依赖于从图像中提取的语言标记进行分析。

(2)高频轨迹优化:实现高频实时规划,引入了轨迹优化模块,该模块与传统的规划器相结合,形成慢--快双重系统。在VLMs生成的低频轨迹 的基础上,传统的规划器进行高频率的轨迹优化,生成新的高频轨迹
其中,Planner 代表传统的规划器, 是额外的输入特征, 作为参考轨迹被用于优化求解器的初始解。在使用基于优化的规划器时, 作为初始轨迹进行优化,而在使用基于神经网络的规划器时, 则作为输入查询,与其他特征一起被解码为新的规划轨迹
在实际操作中,VLM模块和传统规划模块是异步运行的,传统模块在需要时可以选择性地接受来自VLM模块的轨迹作为附加输入。
SUP任务
定义了一个名为“Scene Understanding for Planning”(SUP)的新任务,该任务旨在评估DriveVLM和DriveVLM-Dual系统在复杂驾驶场景中的理解和规划能力。
任务输入:SUP任务的输入包括多视角视频VV,3D感知结果PP
任务输出包括五个关键组件。场景描述EE、场景分析SS、元行动AA、决策描述DD、轨迹路径点WW
Experiments

DriveVLM系统结合Qwen模型在处理复杂场景描述和生成有效元行动方面有着显著优势,超过了目前使用的其他大型视觉语言模型。

不同时间点(1秒、2秒、3秒)下的L2误差和碰撞率。在与VAD结合使用时,DriveVLM-Dual的性能显著优于其他模型,表现出了更好的规划精度和更低的碰撞风险。
本期结语
李小毛理解,本项研究工作加入了快慢两条线,集成了模型对场景的理解和总体决策能力,以及传统规控算法的时效性

但是本篇论文似乎只是理想技术发布会中的一个部分?


往期回顾
强推收藏!使用大语言模型的自动驾驶方案研究综述
PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)
秦通新作 | CS-NeRF:通过NeRF模型重建众包地图
CVPR 2024 | BEVSee:无需相机标定的BEV感知
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章