PlanAgent系统由三个主要模块组成:环境转换模块、推理引擎模块和反思模块。环境转换模块提取关键特征,并生成BEV地图和车道图文本描述。推理引擎模块通过大语言模型(MLLM)采用层次化的链式思维(Chain of Thought, CoT)进行推理。反思模块对生成的规划进行仿真和评分。(1)环境转换模块:从复杂的环境数据中有效提取全局信息(场景类型,提供语义先验)和局部信息(自车及周围车辆的运动状态),并生成大语言模型(LLM)需要的多模态信息。具体的实现方法分为两条线:首先提取BEV地图,作为全局语义信息。然后,构建一个车道图,用于记录地图和相关车辆的位置信息。随后被转换为文本描述,作为局部运动信息。
左上角为生成的bev特征,用于表示全局语义,右上角为车道图,主要是车道的拓扑连接。底部是车道图生成的文本描述,包括节点关系和运动状态两部分。(2)推理引擎模块:通过链式思维(Chain of Thought, CoT)的指导,将多模态大语言模型(MLLM)的能力引入到自动驾驶规划过程中。使用环境转换模块生成的场景提示和预定义的系统提示作为输入,通过多轮推理生成基于IDM(Intelligent Driver Model)规划器的规划代码。推理过程中,链式思维设计为三个步骤:场景理解、运动指令生成和规划代码生成。
其中, 是速度限制, 是加速度限制, 是减速度限制。进一步确定车辆的纵向速度变化,确保加速度在合理范围内:然后,MLLM生成相应的Python代码,通过调用不同的超参数来运行IDM规划器:这一过程确保了系统可以根据不同的场景生成合适的运动规划,从而提高自动驾驶规划的安全性和可靠性。上文中没有解释系统提示(System Prompt),因为这个不算是创新点。系统提示为MLLM提供上下文信息,包括任务定义提示(Task Definition Prompt),常识提示(Common Sense Prompt),链式思维提示(Chain of Thoughts Prompt)(3)反思模块:由推理引擎生成的每一个规划通过仿真进行测试,并基于多个指标(如碰撞风险、驾驶舒适度等)计算一个仿真得分。参考“看准再跳”(Look before you leap)的原则,减少推理引擎中MLLM的不确定性。当仿真分数高于阈值时,进行执行;否则,重新规划。