欢迎关注微信公众号“机器人EmbodiedAI”
论文题目:Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous and Instruction-guided Driving
论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Diffusion-ES_Gradient-free_Planning_with_Diffusion_for_Autonomous_and_Instruction-guided_Driving_CVPR_2024_paper.pdf
一、方法
Diffusion-ES(扩散优化策略)在建模复杂和多模态轨迹分布以支持决策和控制方面表现突出。最近提出了基于奖励梯度引导的去噪方法,用于生成既最大化可微分奖励函数又符合扩散模型捕获的数据分布概率的轨迹。奖励梯度引导的去噪方法需要一个可微的奖励函数适应于清洁样本和噪声样本,限制了其作为通用轨迹优化器的适用性。在本文中,我们提出了Diffusion-ES,一种将无梯度优化与轨迹去噪相结合的方法,用于优化黑盒非可微目标,并保持在数据流形内。Diffusion-ES通过从扩散模型中采样轨迹,并使用黑盒奖励函数对其进行评分。它通过截断扩散过程来变异高分轨迹,应用少量的噪声和去噪步骤,从而能够更有效地探索解空间。我们展示了Diffusion-ES在nuPlan上取得了最先进的性能,这是一个针对自动驾驶的建立闭环规划基准。Diffusion-ES优于现有的基于采样的规划器、反应式确定性或基于扩散的策略,以及奖励梯度引导方法。此外,我们展示了与先前的引导方法不同,我们的方法可以优化由少样本大语言模型提示生成的非可微语言形式奖励函数。在受人类教师指导并发布跟随指令的情况下,我们的方法可以生成新颖且高度复杂的行为,如激进的车道变换,这些行为在训练数据中并不存在。这使得我们能够解决超出现有轨迹优化方法和驾驶策略能力的最困难的nuPlan场景。
论文的贡献:
我们引入了Diffusion-ES,一种用于优化黑盒目标的轨迹优化方法,使用轨迹扩散模型在基于采样的搜索过程中对轨迹提案进行采样和变异。我们展示了Diffusion-ES在nuPlan闭环驾驶中与工程规划器的性能相匹配,并在优化需要灵活驾驶行为(超越车道跟随)的更复杂奖励函数时远远超过它们。据我们所知,这是首次将进化搜索与扩散模型结合使用。
我们展示了Diffusion-ES可以通过优化大语言模型(LLM)形式的奖励函数来遵循语言指令,并通过调整闭环驾驶行为来控制自动驾驶车辆,而无需任何语言和行为的训练数据。我们展示了这种指令跟随能够解决nuPlan中最具挑战性的驾驶场景。
我们展示了对我们模型进行了广泛的消融分析,根据不同的条件信息量进行了实验,清楚地揭示了在驾驶中推理速度和超出分布的泛化能力之间的权衡。
二、实验结果
三、总结
我们介绍了Diffusion-ES,一种基于黑盒奖励引导的扩散采样方法。我们展示了Diffusion-ES能够有效优化nuPlan中的驾驶和按指令跟随任务的奖励函数,并且在工程化的基于采样规划器、反应式确定性或扩散策略,以及可微分的奖励梯度引导方法方面表现优越。我们展示了我们的方法如何在没有任何语言-行动轨迹数据的情况下,仅使用大语言模型提示生成形状奖励地图来进行测试时优化按语言指令行动的能力。
我们未来的工作将探索在没有人类教师的情况下,获取适合处理长尾驾驶场景的正确奖励塑形方法。我们的实验展示了扩散策略在场景条件化过程中推理速度和超出分布泛化能力之间的权衡。我们未来的工作将探索将这类搜索结果摊销到快速反应策略上的方法,并在两个极端之间找到平衡,以便根据场景需要灵活分配计算资源。