点击下方卡片,关注「3DCV」公众号
选择星标,干货第一时间送达
来源:3DCV
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
写在前面
安全关键场景在自然驾驶环境中很少见,但对于自动驾驶系统的训练和测试却具有重要意义。当前的主流方法是在仿真中通过对自然环境进行对抗性调整,自动生成安全关键场景。这些调整通常是针对特定系统量身定制的,忽略了它们在不同系统之间的可迁移性。在本文中,我们提出了AdvDiffuser,这是一种通过引导扩散生成安全关键驾驶场景的对抗性方法。通过使用扩散模型来捕捉背景车辆的群体行为,以及一个轻量级的引导模型来有效处理对抗性场景,AdvDiffuser具备高度可迁移性。在nuScenes数据集上的实验结果表明,AdvDiffuser在离线驾驶日志上训练后,可以应用于各种测试系统,只需最少的预热步数,就能在真实感、多样性和对抗性性能方面优于其他现有方法。
论文链接: https://arxiv.org/pdf/2410.08453
AdvDiffuser:中科慧拓技术团队新成果
中科慧拓技术团队联合中山大学、武汉大学和中科院自动化所提出了场景生成新方法AdvDiffuser,通过扩散模型生成安全关键驾驶场景。其主要贡献如下:首先,通过将引导采样纳入驾驶仿真,AdvDiffuser提出了一种用于生成安全关键场景的新颖框架。其次,AdvDiffuser提出了一种基于扩散模型的多车交通仿真方法,可以有效生成多样化、逼真的背景交通流。一系列实验检验证实了AdvDiffuser的可转移性优势,突出了其在自动驾驶测试中的实际作用。
问题背景
自动驾驶汽车 (AV) 的安全性评估需要长尾驾驶场景。然而,这些场景在现实世界中很少见,这就带来了数据稀缺性问题。一种流行的替代方法是在仿真器中生成安全关键场景。通常,这些工作通过对抗性强化学习或在场景参数化空间中进行优化搜索来修改单个或一小组背景车辆的运动。然而这些研究缺乏对不同类型目标之间的可转移性,这使得生成的场景缺乏灵活性。
最近,扩散模型在视觉和语言任务方面取得了重大进展,展示了其在小样本或零样本学习中的潜力。已有多项研究采用扩散模型来解决序列决策问题,比如将辅助奖励函数的引导加入到采样过程中,以产生类条件结果。这些研究证明了扩散模型具备在处理分布外数据时无需再训练的强大生成能力。
详解AdvDiffuser
1)问题表述
我们的目标是创建逼真且具有挑战性的测试场景,让自动驾驶系统在测试中出现故障情形。具体来说,驾驶场景 包含一张高清地图 ,其中包括可驾驶区域和车道的语义信息,以及车辆的状态 (或轨迹 )和运动 。用 表示所有车辆在时间步 的联合状态,用 表示所有车辆的周围地图和历史状态。为了区分背景车辆与被测的自动驾驶车辆,引入下标 表示第 辆车,并使用上标 “+” 来表示被测车辆。车辆的状态通过二维位置、航向和速度进行参数化表达,而运动行为则通过转向角和加速度进行表示。自动驾驶系统的目标是通过优化成本函数 来确保驾驶的舒适性和安全性。与之相反,生成挑战性场景的目标是故意破坏它们的舒适性和安全性,最大化这一成本。由于我们的算法直接生成轨迹,并通过动力学模型将轨迹转化为了运动,因此我们可以简单的使用轨迹来表示这一目标。
2)多智能体轨迹的扩散模型
我们采用扩散模型来生成背景车辆的群体行为。扩散模型通过迭代去噪的方式生成数据,这一过程是前向扩散过程的逆过程,并且遵循马尔可夫链的状态转移。在多次迭代后,模型最终收敛到一个稳定分布。
在架构中,系统通过上下文编码器处理历史轨迹和周围地图信息,并使用多层感知机和图网络来捕捉车辆的相互作用。这个去噪过程通过以下噪声函数进行描述:
为了联合优化轨迹解码器、上下文编码器和子网络,我们使用了在VAE中常用的证据下限损失函数:
去噪网络 通过优化 噪声损失进行训练,损失函数为:
最终,总的联合损失函数还结合了交通流量的碰撞损失函数 :
3)引导式采样的奖励模型
AdvDiffuser 通过引导函数生成对抗性车辆行为,将强化学习问题建模为引导采样的生成过程。特别地,使用二分类器来识别对抗性样本,并将其整合到原始去噪过程的状态转移中,如下公式所示:
其中 ,而 表示在时间步 时,潜编码是否会生成最优轨迹。
我们通过扰动去噪期间的预测均值,生成对抗性样本,扰动的梯度由奖励函数的梯度给出:
其中
是与对抗目标相关的奖励函数, 计算累积奖励的期望。① 结构设计
我们采用经典的 DQN 网络架构来构建奖励模型。这里,将车辆的上下文 视为状态,将预测的均值 视为动作。奖励函数定义为:
其中 且 , 表示动作值函数。
② 训练过程
我们通过驾驶日志中的数据进行训练,随机选择目标车辆的样本,并使用这些样本对奖励模型进行训练。类似于 DQN,我们使用均方误差来学习 Q 函数:
其中 是折扣因子,时间步 的奖励 包含对抗性奖励与背景碰撞的惩罚:
其中 表示目标自动驾驶车辆的碰撞奖励,而 表示背景车辆的碰撞惩罚。
4)生成安全关键情景
在生成安全关键场景的过程中,首先将所有车辆的历史轨迹及其周围地图编码为上下文嵌入。在此上下文条件下,扩散模型通过迭代去噪随机噪声,同时为每种结果评估对抗性奖励。然后,去噪结果通过奖励的梯度引导进一步优化,以获得能够生成对抗性背景交通流的潜编码,经过 轮去噪后完成。最后,轨迹解码器从潜空间恢复出最终的轨迹。背景车辆与目标车辆之间的交互会持续进行,直到场景因碰撞或到达终点而结束。
AdvDiffuser实验结果
我们在 nuScenes 数据集上进行了评估,将驾驶日志拆分为 8 秒的片段,使用前 2 秒内的过去轨迹来预测后 6 秒的未来轨迹。我们将AdvDiffuser与其他最先进的生成对抗性驾驶场景的方法进行了比较。选用的基线模型包括:Replay、AdvSim、Strive、Adv-RL等。
实验重点关注现实的安全关键场景,并提出一套指标来评估生成的场景的质量,以及评估经过测试的规划器在对抗场景中的表现。这些指标包括:多样性、分布真实性、常识、对抗性。
为了评估 AdvDiffuser 在模拟真实交通方面的表现,我们评估了生成轨迹的多样性和合理性。我们的模型与生成基线、AdvSim 和 Strive 进行了比较,实现传统的交通流生成。为了证明在潜空间中扩散的有效性,我们还将其性能与直接在轨迹上应用扩散的性能进行比较,标记为“traj2traj”。实验结果如表 1 所示,
为了检验AdvDiffuser在生成挑战性场景任务中的效果,我们使用基于规则的路径规划器,与Replay、AdvSim、Strive和Adv-RL等方法进行对比,实验结果如表 2 所示。
我们还检验了AdvDiffuser在不同规划器之间的可迁移性,如表 3 所示。除了基于规则的规划器,我们还检验了各种交通仿真规划器,如图 3 所示,甚至在一定的预热之后,AdvDiffuser仍能持续提升对抗有效性,在 90 步以内可以持续提升碰撞率。
讨论
在自动驾驶领域,安全关键驾驶场景的仿真测试尚缺乏一个被普遍认可的评估基准,这对仿真生成的对抗场景在真实自动驾驶中的实际应用提出了重大挑战。当前,使用这些仿真场景作为评估标准的有效性还需要深入研究,尤其是它们在真实驾驶环境中的相关性。
一个关键问题在于,过于不现实或极低概率的危险场景是否真的有助于提升自动驾驶系统的安全性。如果我们将注意力转向评估这些仿真场景在现实中出现的可能性,可能会带来更实用的洞见,有助于更好地理解和优化自动驾驶系统的有效性。这种转变或许能为自动驾驶安全评估提供更科学、务实的方向。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
「3D视觉从入门到精通」知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~