Projection:https://tsinghua-mars-lab.github.io/DriveVLM/
Arxiv:https://arxiv.org/pdf/2402.12289
本期概述
哈喽大家周末快乐~
[理想汽车的自动驾驶处于什么水平?]
各厂都把自个的方案吹得满天乱坠,自媒体测试也大多是为了恰饭,所以理想汽车的智驾能力究竟几何?这个问题想必大家都特别好奇。
理想汽车从去年才开始发力自动驾驶,在此之前可一直是垫底的存在。。
我司团队在今年六月份测试了几个主流的自动驾驶方案,主要测试了相同工况下的路口决策能力和道路领航能力。理想的成绩差点给我们道心干碎了。。。理想的AD max 3.0在路口左右转,加速变道上表现非常优秀,全程人工介入接管的次数也最少。确实端到端自动驾驶模型在天然上就要比rule_based方法具有优越性。
本期李小毛和大家分享理想汽车发布的模型DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models。希望大家能够从中得到灵感!
DriveVLM系统包含三个主要模块:场景描述、场景分析和分层规划。这些模块分别对应于传统自动驾驶系统中的感知、预测和规划部分。与传统系统不同,DriveVLM通过语言模型进行推理,能够处理复杂的场景和长尾情况。创新点主要集中在以下几个方面:
提出DriveVLM系统,用了视觉语言模型(VLMs)来增强自动驾驶系统的场景理解和规划能力
提出DriveVLM-Dual系统,这是一个将DriveVLM与传统自动驾驶系统相结合的混合系统。
定义了一个新任务——场景理解与规划(Scene Understanding for Planning, SUP),并提出了相应的评估指标。还设计了一个全面的数据挖掘和注释流程,用于构建SUP-AD数据集。
PipeLine
DriveVLM系统的整体架构及其与DriveVLM-Dual系统的集成方式。DriveVLM通过三个主要模块进行处理:场景描述(Scene Description)、场景分析(Scene Analysis)和分层规划(Hierarchical Planning)。下方,展示了DriveVLM-Dual的集成方式。DriveVLM-Dual通过3D感知(3D Perception)模块进行关键对象的空间推理,并通过运动预测(Motion Prediction)和轨迹规划(Trajectory Planning)模块实现高频率的轨迹优化。
静态属性 描述了对象的固有特性,这些特性不随时间变化,例如广告牌的视觉提示或卡车的超大货物。 运动状态 描述对象在一段时间内的动态特征,包括位置、方向和动作。 特定行为 指的是对象的特殊动作或手势。例如,警察的手势信号。
元行动 (Meta-actions) :短期的驾驶策略,是车辆在当前驾驶情境下应采取的基本操作。元行动的集合可以表示为 ,其中每个 表示一个元行动,如加速、减速、左转、换道等。 决策描述 (Decision Description) :对元行动的进一步细化,涉及更为详细的驾驶策略。决策描述包括三个要素: 行动 、主体 和持续时间 。行动 对应的是元行动,如"转弯"、"等待"或"加速"。主体 代表与之交互的对象,如行人、交通信号灯或特定车道。持续时间 指定了行动的时间维度。 轨迹路径点(Trajectory Waypoints):将高层次的策略转换为车辆具体的行驶路径。路径点可以表示为一组坐标点的序列 ,其中每个 是一个包含位置 和时间 的元组,即 。
展示了DriveVLM系统通过分层的场景描述、对象识别和分析,最终生成详细的驾驶策略和路径规划
模块中,对于匹配对象,系统利用它们的3D中心坐标、朝向和历史轨迹进行分析; 而对于未匹配对象,则依赖于从图像中提取的语言标记进行分析。
但是本篇论文似乎只是理想技术发布会中的一个部分?