理想汽车&中科院 | PlanAgent:使用MLLM的自动驾驶闭环运动规划

文摘   2024-08-27 09:01   上海  

Arxiv:https://arxiv.org/pdf/2406.01587
本期概述
哈喽大家早上好!周一的调参还顺利嘛!


不得不说,理想汽车在端到端自动驾驶上确实有一手,我们今天继续学习理想汽车参与研究的论文:PlanAgent。在此之前,请回顾"理想汽车"专栏!
理想汽车:UA-Track,3D多目标跟踪(MOT)框架
CVPR 2024 | 理想汽车方案:场景数据检索方法处理长尾问题
理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法

Rule_Based的规划方案无法解决长尾问题,为此,提出了PlanAgent,基于多模态大语言模型(MLLM)的规划系统。PlanAgent的创新点在于:

  • MLLM应用于闭环运动规划:首次将MLLM引入闭环自动驾驶规划。
  • 环境表示方法:通过车道图的形式生成文本描述,减少无效信息输入。
  • 闭环仿真反思机制:仿真与评分机制,确保生成的规划在执行前得到验证。
PipeLine

PlanAgent系统由三个主要模块组成:环境转换模块、推理引擎模块和反思模块环境转换模块提取关键特征,并生成BEV地图和车道图文本描述。推理引擎模块通过大语言模型(MLLM)采用层次化的链式思维(Chain of Thought, CoT)进行推理。反思模块对生成的规划进行仿真和评分。
(1)环境转换模块:从复杂的环境数据中有效提取全局信息(场景类型,提供语义先验)和局部信息(自车及周围车辆的运动状态),并生成大语言模型(LLM)需要的多模态信息。
具体的实现方法分为两条线首先提取BEV地图,作为全局语义信息。然后,构建一个车道图,用于记录地图和相关车辆的位置信息。随后被转换为文本描述,作为局部运动信息。

左上角为生成的bev特征,用于表示全局语义,右上角为车道图,主要是车道的拓扑连接。底部是车道图生成的文本描述,包括节点关系运动状态两部分。
(2)推理引擎模块通过链式思维(Chain of Thought, CoT)的指导,将多模态大语言模型(MLLM)的能力引入到自动驾驶规划过程中。使用环境转换模块生成的场景提示和预定义的系统提示作为输入,通过多轮推理生成基于IDM(Intelligent Driver Model)规划器的规划代码。
推理过程中,链式思维设计为三个步骤:场景理解运动指令生成规划代码生成

场景理解中,MLLM需要回答关于场景类型、交通灯状态、自车状态等问题,从而为生成正确的规划奠定基础。

运动指令生成中,模型根据场景分析生成自车的纵向和横向运动指令,如加速、减速、变道等。

规划代码生成中MLLM主要理解IDM模型的输出来调用规划器。IDM模型生成纵向加速度通过:

其中, 是速度限制, 是加速度限制, 是减速度限制。进一步确定车辆的纵向速度变化,确保加速度在合理范围内:
然后,MLLM生成相应的Python代码,通过调用不同的超参数来运行IDM规划器:
这一过程确保了系统可以根据不同的场景生成合适的运动规划,从而提高自动驾驶规划的安全性和可靠性。
上文中没有解释系统提示(System Prompt),因为这个不算是创新点。系统提示为MLLM提供上下文信息,包括任务定义提示(Task Definition Prompt),常识提示(Common Sense Prompt),链式思维提示(Chain of Thoughts Prompt)
(3)反思模块:由推理引擎生成的每一个规划通过仿真进行测试,并基于多个指标(如碰撞风险、驾驶舒适度等)计算一个仿真得分。参考“看准再跳”(Look before you leap)的原则,减少推理引擎中MLLM的不确定性。
当仿真分数高于阈值时,进行执行;否则,重新规划。

图截的有点长了图的底部是仿真与评分部分,上面进行阈值比较
Experiments
PlanAgent与基于规则的方法(如IDM和PDM-Closed)以及基于学习的方法(如RasterModel、UrbanDriver等)的比较。特别是在挑战性较大的场景下,PlanAgent的性能非常出色,在Val14基准测试中取得了最高的NR-CLS得分,在Test14-hard中表现优异
PlanAgent的表现优于或接近PDM-Closed

顶部是两个案例的规划结果,中间部分PlanAgent的场景理解过程,下半部分是运动指令,最底部是生成的规划代码

本期结语
李小毛理解,理想汽车属实是把多模态玩明白了。。文本和图像分着编码,转手就是一篇文章。。大胆预测一下,应该后续还会有各种子任务的多模态自动驾驶模型的诞生
往期回顾
Co-Driver:使用Qwen-VL(通义千问)实现辅助驾驶
ECCV 2024 | 弃用低精地图?EP-BEV:跨视角地图定位方案
中科院&加州大学 | GenAD:生成式端到端自动驾驶框架
秦通新作 | CS-NeRF:通过NeRF模型重建众包地图
PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!



端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章