Projection:https://github.com/NVlabs/Hydra-MDP
Arxiv:https://arxiv.org/pdf/2406.06978
本期概述
NVIDIA 采取行动加速自动驾驶汽车的开发,成为2024年美国西雅图举办的国际计算机视觉与模式识别会议(CVPR)会议的自动驾驶国际挑战赛的获胜者!不得不说,显卡厂还是有点东西!我们今天来学习这个强力的自动驾驶方案:Hydra-MDP!
Hydra-MDP旨在解决端到端自动驾驶中常见的不足,特别是模仿学习(IL)在开放回路评价中的局限性。Hydra-MDP是一种通过多目标Hydra蒸馏(Hydra-Distillation)进行多模态规划的框架。该框架采用师生模型的知识蒸馏方法,从多个教师(包括人类和基于规则的教师)中学习,学生模型通过多头解码器学习不同的轨迹候选方案,以适应不同的评价指标。
多目标学习与多模态规划的结合:与传统的单目标或单模态方法相比,Hydra-MDP能够同时处理多个评价指标,并能够在一个统一的框架内集成从不同教师处获得的知识。这使得模型在复杂的驾驶环境中具有更好的泛化能力和鲁棒性。 全新的端到端学习架构:传统的规划方法通常依赖于后处理步骤,这些步骤往往是不可微的,且可能导致信息丢失。而Hydra-MDP通过一体化的端到端架构,避免了这些后处理步骤,确保了信息的完整性和模型的可扩展性。 改进的知识蒸馏技术:论文引入了多目标Hydra蒸馏技术,使得学生模型不仅能够学习模仿人类驾驶行为,还能结合规则基础的规划结果,从而提升闭环性能,确保车辆在实际驾驶场景中的安全性、舒适性和合规性。
展示了三种端到端规划范式的对比。(a)单模态规划和单目标学习的传统方法。规划直接依赖于感知数据的输入,但只受限于有限的监督,即使用日志重播(Log-replay)进行回放。这种方法通常只注重一个单一的目标,且在监督信息上存在不足。(b)多模态规划和单目标学习的方法。多模态方法引入了多种感知信息,并通过后处理步骤来选择最优的规划。然而,这种方法存在信息损失的问题,因为感知模块与规划模块之间存在一定的脱节,导致感知信息无法被充分利用。(c)Hydra-MDP多模态规划与多目标学习。该方法不仅利用了来自多个教师(包括人类和规则基础的教师)的知识,还通过仿真全面利用了感知数据的真实值。
PipeLine
Hydra-MDP的pipeline,包括(1)感知网络、(2)轨迹解码器和(3)多目标Hydra蒸馏部分。感知网络部分通过融合LiDAR和前视图像信息生成环境特征(Env. Tokens)。轨迹解码器部分将输入的规划词汇(Planning Vocabulary)与环境Token结合。多目标Hydra蒸馏部分通过多个基于规则的教师模型,利用仿真环境下的指标(例如无责任碰撞、可驾驶区域符合性等)对预测轨迹进行评估。
感知网络(Perception Network):感知网络部分基于Transfuser方法构建,包含图像骨干网络(Image Backbone)和LiDAR骨干网络 (LiDAR Backbone),用于处理来自不同传感器的数据。这两个网络通过Transformer层连接,提取出有最终的感知网络输出环境Token 。同步,感知网络输出环境特征和地面实况感知数据(Ground truth Perceptions),用于训练中的监督。
Transfuser projection:https://github.com/autonomousvision/transfuser
Transfuser paper:https://www.cvlibs.net/publications/Chitta2022PAMI.pdf
感知网络的整体结构
轨迹解码器(Trajectory Decoder):使用了一个基于Transformer的解码器结构,将输入的规划词汇 (Planning Vocabulary)与环境Token结合。规划词汇由 条轨迹聚类得到,用于表示可能的轨迹选择。Transformer解码器生成预测轨迹,并通过一个多层感知器(MLP)计算模仿得分( ),即预测轨迹与人类教师的参考轨迹之间的相似度。
该部分直接看图不太容易理解,小编总结如下:
轨迹选择:通过计算出的模仿损失,选择最优的轨迹用于实际的驾驶决策。
推断和后处理策略(Inference and Post-processing):包括如何在实际驾驶场景中选择最优轨迹以及如何通过模型集成增强性能。
推断阶段(Inference):综合模仿分数和各个指标子分数,以选择最适合当前情境的轨迹。Hydra-MDP框架利用以下公式计算每条轨迹的综合成本:
数据集和评价指标(Dataset and Metrics):实验使用了Navsim数据集,这是基于OpenScene的简化版本,主要聚焦于涉及意图变化的场景,无法简单地通过历史数据推导未来的驾驶规划。数据集分为训练/验证集(Navtrain)和测试集 (Navtest),分别包含1192个和136个场景。
模型的表现通过PDM得分进行评估,PDM得分的公式如下:
Hydra-MDP-V8192 在Navtest上的总得分为 83.0,相比基线方法的 80.9 有明显提升。 Hydra-MDP-V8192-W 进一步通过加权置信度在推断过程中提升性能,总得分达到 85.7。 最终版本 Hydra-MDP-V8192-W-EP 在引入自我进展(Ego Progress)指标的蒸馏后,总得分达到了 86.5,是所有方法中表现最优的。
Hydra-MDP-C 结合了ViT-L和V2-99编码器,总得分达到了 91.0,显示了该模型的强大扩展能力。