![]()
Projection:https://github.com/kkaiwwana/MVPbev
Arxiv:https://arxiv.org/pdf/2407.19468
本期概述
哈喽大家上午好!周五快乐!
![]()
最近BEV相关的模型层出不穷,今天李小毛和大家一块学习一个bev到透视图的研究:MVPbev!不得不说,这个赛道有点小众了
,不知道能否带来不一样的启发呢?
MVPbev用于从鸟瞰视角(Bird-Eye-View, BEV)的语义信息生成多视角透视图像,并在测试时提供视角控制和实例级控制能力。
MVPbev的创新点如下:
跨视角一致性:通过几何变换显式地保持视角间的全局一致性,并通过多视角注意力模块在重叠视角区域隐式地保持局部一致性。
实例级控制:通过细化预训练的文本到图像扩散模型,用户可以在生成过程中对对象实例进行具体化的控制。
双阶段设计:将BEV语义投影到透视视角的视角投影阶段和基于透视语义及文本提示生成图像的图像生成阶段分离,减少了生成过程中的累积误差,并提高了生成图像的视角一致性和视觉质量。
![]()
PipeLine
![]()
MVPbev方法通过两个阶段的设计实现了从鸟瞰视角语义信息和文本提示生成多视角透视图像,并在测试时提供了视角和实例级控制能力。视角投影阶段:输入BEV语义信息图(B)和相机参数(包括内参矩阵K、旋转矩阵R和平移向量T),将BEV语义信息投影到多个透视视角(Multi-view Perspective Semantics, {S_m})。确保了跨视角的全局语义一致性。图像生成阶段:输入经过文本编码器处理的文本提示,与多视角透视语义图一起输入到多视角注意力模块中,进而生成视觉一致且高质量的图像。
语义一致视角投影:通过相机参数,将BEV语义投影到M个透视视角,生成 个透视语义图。给定BEV语义图B ,其中和分别表示高度和宽度, 表示语义类别数。生成一组在M个虚拟相机视角下的透视 图像 ,其中 和 分别表示图像的高度和宽度。相机内参、外参(旋转矩阵和位移向量)分别表示为、和。BEV语义投影到透视视角的公式如下:其中, 表示投影函数, 为第 个视角的透视语义图。通过这个投影步骤,利用几何约束确保了BEV和透视视角之间的语义一致性,从而在生成步骤中减少累积误差。![]()
BEV投影过程的示例,给出了多视角下生成的语义图,并将其叠加到原始RGB图像中进行对比,从而验证语义一致性视角一致图像生成:通过估算重叠区域的单应性 (homography),然后应用多视角注意力模块来隐式地强制各视角之间的一致性。首先:计算具有重叠FOV的图像之间的单应性。假设第m个视角与其左右两侧的视角存在重叠区域,可以计算第m视角的单应性:其中, 表示从右侧视角映射到第m视角的单应性变换。然后,将第m视角的坐标 p 映射到右侧视角的坐标此外:本文还引入了一个位置编码函数 来根据 p 和 之间的 2D 位移对特征图进行位置编码。在多视角注意力模块中,对于第 视角的特征图中的位置 ,基于相应的像素计算注意力输出:其中,Q、K和V分别是查询、键和值矩阵的可学习权重。通过这种方式,多视角注意力模块能够从目标特征像素 K 聚合信息,从而在不同视角之间强制实现视觉一致性。多视角注意力模块通过聚合邻近视角的目标特征像素信息来隐式地利用跨视角一致性。源视角特征图 中的查询位置 p 通过几何先验映射到邻近视角特征图 中的位置 ,并从该位置的键和值信息中聚合信息,从而确保跨视角的一致性。多视角潜在扩散模型(multi-view LDM):原始的LDMs由一个变分自编码器 (VAE) 构成,包括编码器 和解码器 ,一个去噪网络 和一个条件编码器 。输入图像 通过 映射到潜在空间,得到 ,其中 和 均为 8 。潜在变量随后通过解码器 转换回图像空间。在每个汌练步骤中,首先从 1 到 均匀采样一个共享的噪声水平 给所有的多视角图像 ,将其表示为 。为了利用跨视角一致性,进一步强制这些噪声在对应同一像素时保持一致。从第一个视角(即 )开始,重新分配坐标 处的 ,或 ,到 ,并重复这个过程直到 。其中, 是第 m 个图像的估计噪声, 表示第 m 个图像的噪声潜在变量。在采样时,去噪过程在潜在空间中生成样本,解码器 通过一次前向传递生成RGB图像。为了确保在不同视角下重叠区域的像素视觉上相似,再次采用值分配过程。将坐标 处的 ,或 ,重新分配到 。实验表明,如果这种设计应用于最多 的去噪步骤,视觉结果会有所改善,否则性能会下降。![]()
多视角潜在扩散模型(LDM)的结构。输入为控制信号,包括相机视角和语义信息。接着,估算重叠视角之间的单应性变换(),用于保持视角间的一致性。多视角注意力模块(Multi-view Attention)通过聚合邻近视角的目标特征像素信息,隐式地强制各视角之间的一致性。LDM模块应用于潜在空间的多个时间步(T)中,从而确保在去噪过程中的一致性。最后,经过多次去噪步骤后的潜在表示通过解码器(D)转换为多视角透视图像。
![]()
不同方法在生成多视角透视图像时的实验结果。本文方法在重叠视角区域(用橙色虚线标出)的视觉一致性显著提高,生成的图像在不同视角间保持了更高的一致性。此外,本文方法生成的图像质量和真实度也更高,细节更为丰富,接近真实图像(GT)。![]()
视觉一致性:无论是道路、建筑还是植被,MVPbev生成图像都能很好地反映出输入文本提示和BEV语义图所描述的场景。跨视角一致性:特别是在重叠区域,MVPbev生成的图像保持了一致的视觉效果。响应文本提示:根据不同的文本提示,MVPbev生成的图像能够准确地反映场景中的变化。
李小毛理解,本项研究工作似乎是一个反向的研究
大家都在从相机生成bev特征,进行实现车辆控制或者世界模型,这篇文章刚好相反~如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!![]()
温馨提示:点赞=学会,收藏=精通![]()