西湖大学&理想汽车 | Delphi:基于扩散模型的长视频生成方法

文摘   2024-08-31 17:45   上海  
Projection:https://westlake-autolab.github.io/delphi.github.io/
Arxiv:https://arxiv.org/pdf/2406.01349
本期概述
哈咯大家周末快乐!
今天又又又是掉原创的一天。。
本期介绍一个自动驾驶数据仿真生成模型——Delphi!Delphi修改了扩散模型,通过噪声重新初始化模块和特征对齐的时间一致性模块,实现了多视角视频的空间和时间一致性,能够生成长达40帧的高质量视频。
Delphi还提出了一个失败案例驱动的框架,通过生成与模型失败案例相似的训练数据,提高样本效率。在实验中,该框架仅使用4%的训练数据,就成功将端到端自动驾驶模型的规划性能提升了25%!
论文的创新点:
  • 噪声重新初始化模块:通过在不同视角之间共享噪声,增强了视频的空间一致性,使得生成的多视角视频在视觉效果上更加统一。
  • 特征对齐的时间一致性模块:采用精确的跨帧特征对齐,确保视频帧间的时间一致性,提高了长视频的质量和连续性。
  • 失败案例驱动框架:基于失败案例生成训练数据,显著提高了样本效率,仅使用4%的训练数据就提升了端到端自动驾驶模型的规划性能25%。
PipeLine
Delphi方法的整体框架(中间的长图)。包括输入与处理(最上面)、噪声重新初始化(左下角)、去噪U-Net(中右部)。输入与处理部分主要输出检测框的布局嵌入(Layout Embedding),并与场景的密集描述(Scene Dense Caption)一起通过长文本-图像预训练模型(Long-CLIP)生成文本嵌入(Text Embedding)。噪声重新初始化模块引入共享噪声机制,保持视频噪声一致。去噪U-Net结合来自文本嵌入和布局嵌入的信息,最终生成一致性更高的视频帧。
(1)输入与处理部分:该部分主要输出场景布局嵌入文本嵌入。我们分别介绍这部分的数据流!
布局嵌入(Layout Embedding):首先将BEV投影到相机视角下,然后使用三维目标检测,并将检测框信息(坐标,朝向,id等)编码。
文本嵌入(Text Embedding):图像描述模块(Image Captioning)生成场景的文本描述(如天气状况等)。通过Long-CLIP模型处理,生成文本嵌入。
Long-CLIP论文:https://arxiv.org/abs/2403.15378
(2)噪声重新初始化模块:生成多视角视频时,由于各个视角和时间帧之间存在自然的相似性,如果采用独立的噪声注入方式,会导致跨视角和时间的不一致性,进而影响生成视频的质量。为了解决这个问题,引入了共享噪声机制,包括共享的运动噪声(shared motion noise, m)共享的全景噪声(shared panoramic noise, p)这两种噪声分别沿着时间维度和视角维度进行共享,从而在生成的视频中引入时间和视角之间的相关性,确保生成的视频帧在这些维度上保持一致性。具体操作如下:
公式中:
  • 表示在帧 中视角 下的视频图像潜变量(latent variable)。
  • 是视角 下的共享运动噪声。
  • 是帧 的共享全景噪声。
  • 分别表示视角 下在帧 的图像输入和原始噪声。
(3)去噪U-Net典型的U-Net结构,通过多层的下采样和上采样操作来处理输入数据。在图示中,U-Net的各层用不同颜色表示,包括:
  • 紫色:表示跨视角注意力模块(Cross View Attention)。
  • 绿色:表示特征对齐的时间一致性模块(Feature-aligned Temporal Consistency Module)。
  • 灰色:表示其他网络层。
这里只需要介绍特征对齐的一致性模块!这部分通过两种注意力机制来提升视频生成过程中帧与帧之间的时间一致性:场景感知注意力(Scene-aware Attention)和实例感知注意力(Instance-aware Attention)。
场景感知注意力:生成当前帧时,通常采用简单的跨帧注意力机制,将前一帧的信息融合到当前视图中。然而,这种方法忽略了不同网络深度上的特征具有不同的感受野,导致生成的视频质量欠佳。
解决方法:提出场景级别的跨帧注意力机制,在相邻帧的相同网络深度之间进行特征交互。公式如下:
其中, 是当前帧在特定网络深度 上的查询特征图, 分别是上一帧在相同网络深度 上的键和值特征图。
实例感知注意力:使用前景边界框作为注意力掩码,在相邻帧的局部区域之间进行特征交互。通过在局部区域内的特征交互,增强场景中移动物体的连贯性,并提升生成视频中物体的时间一致性。公式如下:
其中, 是分别来自当前帧和上一帧的前景物体的掩码。Mn 表示当前帧 n 的前景物体掩码(Mask),用于定义当前帧中前景物体的区域。Zero表示经过零初始化的可训练卷积层,用于在特定条件下调整注意力结果。 Q^ni表示经过实例感知注意力更新后的查询特征。注意力机制仅在掩码定义的局部区域内进行特征交互
分别表示场景感知注意力和实例感知注意力。后者只在掩膜范围内进行
故障案例驱动框架
通过系统化地收集、分析失败案例,并生成有针对性的训练数据,显著提高了模型的泛化能力和在复杂场景下的表现。主要包括四个步骤,收集失败案例,分析数据模式,检索相似场景,更新模型。
这部分框架很有意思!类似于,做错一道题,那就反复做同样的题型,知道学会为止!

(1)收集失败案例(Collecting Failure Cases)在训练数据集上进行评估。如果模型在某些场景下表现不佳(例如,发生碰撞),这些场景被标记为失败案例。这些失败案例随后被提取出来,用于后续的分析。

(2)分析数据模式(Analyzing Data Pattern)对收集到的失败案例分析失败的原因。主要分为两类:

  • 感知错误(Perception Error):例如模型无法正确识别物体,可能是因为物体属于稀有类别或者是大物体接近车辆。
  • 规划错误(Planning Error):例如在复杂的交互行为或遮挡场景中,模型做出了错误的决策。

(3)检索相似场景(Retrieving Similar Scenes)视觉语言模型(VLM)从训练集中检索与这些失败案例相似的场景,并根据需要进行扩展,以生成更多的类似场景视频数据。

(4)更新模型(Updating Model):Delphi模型根据扩展后的场景描述生成新的训练数据。

Experiments
对比了三种不同生成模型在多视角视频生成中的表现:MagicDrive、Panacea,以及Delphi(Ours)。Delphi通过精细的特征对齐和一致性维护,显著提升了视频的视觉质量,避免了物体在不同视角和时间帧下的漂移和变形问题。
Delphi模型在不同视角(如前视角、右前视角、右后视角)下的时空一致性。Delphi模型在不同视角以及时间维度上保持了高度一致性。
在应用基于失败案例驱动框架前后,自动驾驶系统在处理四个复杂场景时的规划结果对比。左侧(a)展示了在未应用失败案例驱动框架时的规划结果,右侧(b)展示了应用该框架后的规划结果。
本期结语
李小毛理解,本项研究工作的局限性在于,只依赖于BEV布局作为输入,虽然能够丰富外观细节,但无法在合成过程中改变布局,这使得该框架只能用于开放循环的场景,无法在闭环设置中使用!
此外,当端到端模型在训练数据集上表现完美时,失败案例驱动的采样方法可能无效。
往期回顾
大语言模型&多模态模型在自动驾驶中的应用综述(2)
被连续举报的第五天 | 自动驾驶基础模型的综述
高度提炼 | DreamCar??严肃!这个可不是魅族汽车!在moving-froward场景中的3D车辆重建!
ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...
深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章