欢迎关注微信公众号“机器人具身智能”
论文题目:Feedback-Guided Autonomous Driving
论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Zhang_Feedback-Guided_Autonomous_Driving_CVPR_2024_paper.pdf
一、方法
最近,虽然行为克隆作为自动驾驶的一个非常成功的范式已经出现,但人类很少通过单纯的模仿或行为克隆来学习执行驾驶等复杂任务。相比之下,人类的学习通常涉及在互动学习过程中额外的详细指导,即通过语言提供反馈,详细说明他们试验中执行不正确或次优的部分及其原因。受到这一观察的启发,我们引入了一个基于有效反馈的框架,用于改进基于行为克隆的感觉运动驾驶代理训练。我们的关键洞察是利用最近在大型语言模型(LLM)方面的进展,提供关于驾驶预测失败背后原因的纠正细致反馈。此外,我们引入的网络架构高效,实现了首个基于感觉运动的端到端训练和评估LLM驱动模型。在nuScenes的开环评估中,得到的代理表现达到了最先进水平,准确率和碰撞率分别比先前的最先进方法提高了超过8.1%和57.1%。在CARLA中,我们基于摄像头的代理在驾驶得分上比基于先前的激光雷达的方法提高了16.6%。
我们介绍了FeD,一种基于MLLM的高效感觉运动驾驶模型,通过三个关键改进实现:
1)利用自动生成的反馈数据进行训练的基于语言的反馈精细化,因此我们的方法无需额外的数据收集。
2)通过从具有鸟瞰视角的特权代理进行蒸馏训练模型,使我们的模型能够在测试时稳健地仅使用RGB数据。
3)以掩码标记方式从路径点令牌的内部表示预测驾驶路径点,即不依赖于缓慢的顺序生成过程。
在我们的实验中,我们展示了在开环和闭环评估设置中的最先进性能,相比之前的方法,性能提高了超过16%,特别是受益于额外的自动生成的基于语言的反馈。值得注意的是,FeD在CARLA中的违规行为显著减少了超过33%,几乎没有与物体发生碰撞。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
我们介绍了FeD,这是第一个基于LLM的感觉运动端到端自动驾驶模型。与现有的基于LLM方法相比,FeD能够实现高效的闭环评估,而这些方法通常依赖缓慢且成本高昂的推理过程。除了高效的架构外,FeD还通过从具有场景鸟瞰信息的特权代理进行蒸馏训练,从丰富的监督中学习。我们进一步利用详细的纠正性反馈,解释驾驶预测失败的原因,从而使感觉运动代理能够更好地从自身的错误中学习。FeD在闭环仿真和开环实际评估中均取得了最先进的结果。考虑到LLM的计算开销,未来的工作包括克服实时应用的限制,例如通过更有效的蒸馏策略。利用各种类型的反馈,例如更粗略的高层次反馈,未来还可以进一步增加提议的基于反馈的机制的可用性。最后,通过未来的工作可以追求改进的样本效率,因为当前的微调需求涉及数百次迭代以有效利用反馈。
欢迎关注微信公众号“机器人具身智能”