理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

文摘 2024-08-27 09:01 上海

Arxiv：https://arxiv.org/pdf/2406.01587

本期概述

哈喽大家早上好！周一的调参还顺利嘛！

不得不说，理想汽车在端到端自动驾驶上确实有一手，我们今天继续学习理想汽车参与研究的论文：PlanAgent。在此之前，请回顾"理想汽车"专栏！

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

Rule_Based的规划方案无法解决长尾问题，为此，提出了PlanAgent，基于多模态大语言模型（MLLM）的规划系统。PlanAgent的创新点在于：

MLLM应用于闭环运动规划：首次将MLLM引入闭环自动驾驶规划。
环境表示方法：通过车道图的形式生成文本描述，减少无效信息输入。
闭环仿真反思机制：仿真与评分机制，确保生成的规划在执行前得到验证。

PipeLine

PlanAgent系统由三个主要模块组成：环境转换模块、推理引擎模块和反思模块。环境转换模块提取关键特征，并生成BEV地图和车道图文本描述。推理引擎模块通过大语言模型（MLLM）采用层次化的链式思维（Chain of Thought, CoT）进行推理。反思模块对生成的规划进行仿真和评分。

（1）环境转换模块：从复杂的环境数据中有效提取全局信息（场景类型，提供语义先验）和局部信息（自车及周围车辆的运动状态），并生成大语言模型（LLM）需要的多模态信息。

具体的实现方法分为两条线：首先提取BEV地图，作为全局语义信息。然后，构建一个车道图，用于记录地图和相关车辆的位置信息。随后被转换为文本描述，作为局部运动信息。

左上角为生成的bev特征，用于表示全局语义，右上角为车道图，主要是车道的拓扑连接。底部是车道图生成的文本描述，包括节点关系和运动状态两部分。

（2）推理引擎模块：通过链式思维（Chain of Thought, CoT）的指导，将多模态大语言模型（MLLM）的能力引入到自动驾驶规划过程中。使用环境转换模块生成的场景提示和预定义的系统提示作为输入，通过多轮推理生成基于IDM（Intelligent Driver Model）规划器的规划代码。

推理过程中，链式思维设计为三个步骤：场景理解、运动指令生成和规划代码生成。

场景理解中，MLLM需要回答关于场景类型、交通灯状态、自车状态等问题，从而为生成正确的规划奠定基础。

运动指令生成中，模型根据场景分析生成自车的纵向和横向运动指令，如加速、减速、变道等。

规划代码生成中，MLLM主要理解IDM模型的输出来调用规划器。IDM模型生成纵向加速度通过:

其中，是速度限制，是加速度限制，是减速度限制。进一步确定车辆的纵向速度变化，确保加速度在合理范围内:

然后，MLLM生成相应的Python代码，通过调用不同的超参数来运行IDM规划器：

这一过程确保了系统可以根据不同的场景生成合适的运动规划，从而提高自动驾驶规划的安全性和可靠性。

上文中没有解释系统提示（System Prompt），因为这个不算是创新点。系统提示为MLLM提供上下文信息，包括任务定义提示（Task Definition Prompt），常识提示（Common Sense Prompt），链式思维提示（Chain of Thoughts Prompt）

（3）反思模块：由推理引擎生成的每一个规划通过仿真进行测试，并基于多个指标（如碰撞风险、驾驶舒适度等）计算一个仿真得分。参考“看准再跳”（Look before you leap）的原则，减少推理引擎中MLLM的不确定性。

当仿真分数高于阈值时，进行执行；否则，重新规划。

图截的有点长了图的底部是仿真与评分部分，上面进行阈值比较

Experiments

PlanAgent与基于规则的方法（如IDM和PDM-Closed）以及基于学习的方法（如RasterModel、UrbanDriver等）的比较。特别是在挑战性较大的场景下，PlanAgent的性能非常出色，在Val14基准测试中取得了最高的NR-CLS得分，在Test14-hard中表现优异

PlanAgent的表现优于或接近PDM-Closed

顶部是两个案例的规划结果，中间部分是PlanAgent的场景理解过程，下半部分是运动指令，最底部是生成的规划代码

本期结语

李小毛理解，理想汽车属实是把多模态玩明白了。。文本和图像分着编码，转手就是一篇文章。。大胆预测一下，应该后续还会有各种子任务的多模态自动驾驶模型的诞生

往期回顾

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉