西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

文摘 2024-08-31 17:45 上海

Projection：https://westlake-autolab.github.io/delphi.github.io/

Arxiv：https://arxiv.org/pdf/2406.01349

本期概述

哈咯大家周末快乐！

今天又又又是掉原创的一天。。

本期介绍一个自动驾驶数据仿真生成模型——Delphi！Delphi修改了扩散模型，通过噪声重新初始化模块和特征对齐的时间一致性模块，实现了多视角视频的空间和时间一致性，能够生成长达40帧的高质量视频。

Delphi还提出了一个失败案例驱动的框架，通过生成与模型失败案例相似的训练数据，提高样本效率。在实验中，该框架仅使用4%的训练数据，就成功将端到端自动驾驶模型的规划性能提升了25%！

论文的创新点：

噪声重新初始化模块：通过在不同视角之间共享噪声，增强了视频的空间一致性，使得生成的多视角视频在视觉效果上更加统一。
特征对齐的时间一致性模块：采用精确的跨帧特征对齐，确保视频帧间的时间一致性，提高了长视频的质量和连续性。
失败案例驱动框架：基于失败案例生成训练数据，显著提高了样本效率，仅使用4%的训练数据就提升了端到端自动驾驶模型的规划性能25%。

PipeLine

Delphi方法的整体框架（中间的长图）。包括输入与处理（最上面）、噪声重新初始化（左下角）、去噪U-Net（中右部）。输入与处理部分主要输出检测框的布局嵌入（Layout Embedding），并与场景的密集描述（Scene Dense Caption）一起通过长文本-图像预训练模型（Long-CLIP）生成文本嵌入（Text Embedding）。噪声重新初始化模块引入共享噪声机制，保持视频噪声一致。去噪U-Net结合来自文本嵌入和布局嵌入的信息，最终生成一致性更高的视频帧。

（1）输入与处理部分：该部分主要输出场景布局嵌入和文本嵌入。我们分别介绍这部分的数据流！

布局嵌入（Layout Embedding）：首先将BEV投影到相机视角下，然后使用三维目标检测，并将检测框信息（坐标，朝向，id等）编码。

文本嵌入（Text Embedding）：图像描述模块（Image Captioning）生成场景的文本描述（如天气状况等）。通过Long-CLIP模型处理，生成文本嵌入。

Long-CLIP论文：https://arxiv.org/abs/2403.15378

（2）噪声重新初始化模块：生成多视角视频时，由于各个视角和时间帧之间存在自然的相似性，如果采用独立的噪声注入方式，会导致跨视角和时间的不一致性，进而影响生成视频的质量。为了解决这个问题，引入了共享噪声机制，包括共享的运动噪声（shared motion noise, m）和共享的全景噪声（shared panoramic noise, p）。这两种噪声分别沿着时间维度和视角维度进行共享，从而在生成的视频中引入时间和视角之间的相关性，确保生成的视频帧在这些维度上保持一致性。具体操作如下:

公式中:

表示在帧中视角下的视频图像潜变量（latent variable）。
是视角下的共享运动噪声。
是帧的共享全景噪声。
和分别表示视角下在帧的图像输入和原始噪声。

（3）去噪U-Net：典型的U-Net结构，通过多层的下采样和上采样操作来处理输入数据。在图示中，U-Net的各层用不同颜色表示，包括：

紫色：表示跨视角注意力模块（Cross View Attention）。
绿色：表示特征对齐的时间一致性模块（Feature-aligned Temporal Consistency Module）。
灰色：表示其他网络层。

这里只需要介绍特征对齐的一致性模块！这部分通过两种注意力机制来提升视频生成过程中帧与帧之间的时间一致性：场景感知注意力（Scene-aware Attention）和实例感知注意力（Instance-aware Attention）。

场景感知注意力：生成当前帧时，通常采用简单的跨帧注意力机制，将前一帧的信息融合到当前视图中。然而，这种方法忽略了不同网络深度上的特征具有不同的感受野，导致生成的视频质量欠佳。

解决方法：提出场景级别的跨帧注意力机制，在相邻帧的相同网络深度之间进行特征交互。公式如下：

其中，是当前帧在特定网络深度上的查询特征图，和分别是上一帧在相同网络深度上的键和值特征图。

实例感知注意力：使用前景边界框作为注意力掩码，在相邻帧的局部区域之间进行特征交互。通过在局部区域内的特征交互，增强场景中移动物体的连贯性，并提升生成视频中物体的时间一致性。公式如下：

其中，和是分别来自当前帧和上一帧的前景物体的掩码。

M_n

表示当前帧

n

的前景物体掩码（Mask），用于定义当前帧中前景物体的区域。Zero表示经过零初始化的可训练卷积层，用于在特定条件下调整注意力结果。

\hat{Q}_n^i

表示经过实例感知注意力更新后的查询特征。注意力机制仅在掩码定义的局部区域内进行特征交互

分别表示场景感知注意力和实例感知注意力。后者只在掩膜范围内进行

故障案例驱动框架

通过系统化地收集、分析失败案例，并生成有针对性的训练数据，显著提高了模型的泛化能力和在复杂场景下的表现。主要包括四个步骤，收集失败案例，分析数据模式，检索相似场景，更新模型。

这部分框架很有意思！类似于，做错一道题，那就反复做同样的题型，知道学会为止！

（1）收集失败案例（Collecting Failure Cases）在训练数据集上进行评估。如果模型在某些场景下表现不佳（例如，发生碰撞），这些场景被标记为失败案例。这些失败案例随后被提取出来，用于后续的分析。

（2）分析数据模式（Analyzing Data Pattern）对收集到的失败案例分析失败的原因。主要分为两类：

感知错误（Perception Error）：例如模型无法正确识别物体，可能是因为物体属于稀有类别或者是大物体接近车辆。
规划错误（Planning Error）：例如在复杂的交互行为或遮挡场景中，模型做出了错误的决策。

（3）检索相似场景（Retrieving Similar Scenes）：视觉语言模型（VLM）从训练集中检索与这些失败案例相似的场景，并根据需要进行扩展，以生成更多的类似场景视频数据。

（4）更新模型（Updating Model）：Delphi模型根据扩展后的场景描述生成新的训练数据。

Experiments

对比了三种不同生成模型在多视角视频生成中的表现：MagicDrive、Panacea，以及Delphi（Ours）。Delphi通过精细的特征对齐和一致性维护，显著提升了视频的视觉质量，避免了物体在不同视角和时间帧下的漂移和变形问题。

Delphi模型在不同视角（如前视角、右前视角、右后视角）下的时空一致性。Delphi模型在不同视角以及时间维度上保持了高度一致性。

在应用基于失败案例驱动框架前后，自动驾驶系统在处理四个复杂场景时的规划结果对比。左侧（a）展示了在未应用失败案例驱动框架时的规划结果，右侧（b）展示了应用该框架后的规划结果。

本期结语

李小毛理解，本项研究工作的局限性在于，只依赖于BEV布局作为输入，虽然能够丰富外观细节，但无法在合成过程中改变布局，这使得该框架只能用于开放循环的场景，无法在闭环设置中使用！

此外，当端到端模型在训练数据集上表现完美时，失败案例驱动的采样方法可能无效。

往期回顾

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉