点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:GenXD: Generating Any 3D and 4D Scenes
作者:Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang
机构:National University of Singapore、Microsoft Corporation
原文链接:https://arxiv.org/pdf/2411.02319
代码链接:https://github.com/HeliosZhao/GenXD
官方主页:https://gen-x-d.github.io/
1. 导读
2D视觉一代最近的发展非常成功。然而,由于缺乏大规模4D数据和有效的模型设计,3D和4D生成在现实世界的应用中仍然具有挑战性。在本文中,我们提出通过利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区中缺乏真实世界的4D数据,我们首先提出了一个数据策展管道来从视频中获取相机姿态和对象运动强度。基于这个流水线,我们引入了一个大规模真实世界4D场景数据集:CamVid-30K。通过利用所有的3D和4D数据,我们开发了我们的框架GenXD,它允许我们制作任何3D或4D场景。我们提出了多视图-时间模块,将相机和物体运动分开,无缝地从3D和4D数据中学习。此外,GenXD采用屏蔽的潜在条件来支持各种条件视图。GenXD可以生成遵循相机轨迹的视频以及一致的3D视图,这些视图可以提升为3D表示。我们在各种真实世界和合成数据集上进行了广泛的评估,与之前的3D和4D生成方法相比,证明了GenXD的有效性和多功能性。
2. 引言
生成二维视觉内容在扩散模型和自回归建模方面取得了显著成功,这些技术已被应用于现实世界,造福社会。除了二维生成,三维内容生成也至关重要,它应用于视频游戏、视觉特效和可穿戴混合现实设备等领域。然而,由于三维建模的复杂性和三维数据的局限性,三维内容生成仍远未达到令人满意的效果,并正吸引更多关注。在本文中,我们专注于三维和四维内容的统一生成。具体而言,静态三维内容仅涉及空间视角的变化,本文称之为三维生成。相比之下,动态三维内容包含场景中的可移动对象,需要同时建模空间视角和动态(时间)变化,我们称之为四维生成。
大多数先前的工作使用合成对象数据进行三维和四维生成。合成对象数据通常是网格,研究人员可以从任何视角渲染图像和其他三维信息(如法线和深度)。然而,对象生成对专业人士比对普通大众更有益。相比之下,场景级生成可以帮助每个人通过更丰富的内容来增强他们的图像和视频。因此,近期工作探索了单个模型中的通用三维生成(包括场景级和对象级),并取得了令人印象深刻的性能。尽管如此,这些工作仅关注静态三维生成,未涉及动态内容。在本文中,我们提出了一个用于通用三维和四维生成的统一框架,该框架能够使用任意数量的条件图像从不同视角和时间步长生成图像。
四维生成的首要挑战是缺乏通用的四维数据。在这项工作中,我们提出了CamVid-30K,它包含大约30K个四维数据样本。四维数据需要多视角空间信息和时间动态,因此我们转向视频数据来获取必要的四维数据。具体而言,我们需要从视频中获取两个关键属性:每帧的相机姿态和可移动对象的存在。为实现这一点,我们首先使用分割模型估计视频中可能的可移动对象,然后使用场景中静态部分的关键点估计相机姿态。虽然成功的相机姿态估计确保了多个视角,但我们还需要确保视频中存在移动对象,而非纯静态场景。为解决这一问题,我们提出了一个对象运动场,该运动场利用对齐的深度来估计二维视图中的真实对象运动。基于对象运动场,我们过滤掉静态场景,得到大约30K个具有相机姿态的视频。推荐课程:彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用。
此外,我们提出了一个统一框架GenXD,以在单个模型中处理三维和四维生成。虽然三维和四维数据在表示空间信息方面存在相似性,但它们在捕获时间信息方面存在差异。因此,通过分离空间和时间信息,三维和四维生成可以相互补充。为实现这一点,我们在模型训练期间结合了三维和四维数据。为分离空间和时间信息,我们在GenXD中引入了多视角-时间模块。在每个模块中,我们使用α融合来合并四维数据的空间和时间信息,同时为三维数据去除时间信息。先前的工作通常使用固定数量的条件图像(例如,第一张图像)。然而,单图像条件可以更具创意,而多图像条件则提供了更大的一致性。因此,我们在扩散模型中实现了掩码潜在条件。通过掩码掉条件图像中的噪声,GenXD可以支持任意数量的输入视角,而无需修改网络。凭借高质量的四维数据和四维时空生成模型,GenXD在使用单个或多个输入视角的三维和四维生成方面均取得了显著性能。
3. 效果展示
GenXD是从任意数量的条件图像生成高质量3D和4D的统一模型。通过控制运动强度和条件掩码,GenXD无需任何修改即可支持各种应用。状态图像用星形图标显示,时间维度用虚线表示。
4. 主要贡献
我们的贡献总结如下:
• 我们设计了一个数据整理流程,从视频中获取包含可移动对象的高质量四维数据,并为30,000个视频标注了相机姿态。这个大规模数据集,称为CamVid-30K,将供公众使用。
• 我们提出了一个三维-四维联合框架GenXD,该框架支持在各种设置下以图像为条件的三维和四维生成。在GenXD中,引入了多视角-时间层来分离和融合多视角和时间信息。
• 使用提出的CamVid-30K以及其他现有的三维和四维数据集,GenXD在单视角三维对象生成、少视角三维场景重建、单视角四维生成以及单/多视角四维生成方面,实现了与先前最先进方法和基线方法相当或更优的性能。
5. 方法
大规模四维场景数据的缺乏限制了动态三维任务的发展,包括但不限于四维生成、动态相机姿态估计和可控视频生成。为解决这一问题,本文介绍了一个高质量的四维数据集。首先,我们使用基于运动恢复结构(SfM)的方法估计相机姿态,然后使用提出的运动强度过滤掉没有对象移动的数据。该流程如图2所示。
通过每个对象的运动场,我们可以通过计算运动场绝对值的平均值来估计对象的整体运动。对于每个视频,运动强度由所有对象中最大的运动值来表示。如图3所示,当摄像机移动而对象保持静止时(第二个示例),与对象运动的视频相比,运动强度明显较小。利用运动强度,我们可以进一步过滤掉缺乏明显对象运动的数据。运动强度值也是衡量对象运动规模的一个良好指标,它在时间层中被用来实现更好的运动控制。
参考图像的条件更为复杂。GenXD旨在通过单个和多个输入视图来进行3D和4D生成。单视图生成的要求较低,而多视图生成的结果更为一致。因此,结合单视图和多视图生成将带来更好的实际应用效果。然而,之前的工作通过将条件潜在变量与目标潜在变量拼接,并通过交叉注意力机制融入CLIP图像嵌入来对图像进行条件处理。拼接方式需要改变模型的通道,因此无法处理任意输入视图。CLIP嵌入可以支持多个条件。然而,这两种方式都无法对多个条件的位置信息进行建模,也无法对输入视图之间的信息进行建模。鉴于这些限制,我们利用掩码潜在条件来处理图像条件。如图4所示,在使用VAE编码器进行编码后,对目标帧(第二帧和第三帧)应用正向扩散过程,而条件潜在变量(第一帧)则保持不变。然后,通过去噪模型估计这两帧上的噪声,并通过反向过程去除噪声。
6. 实验结果
7. 总结
在本文中,我们研究了使用扩散模型进行一般的3D和4D生成。为了增强4D生成的学习,我们首先提出了一个数据整理流程,用于标注视频中的摄像机和对象运动。借助该流程,本文引入了最大的现实世界4D场景数据集CamVid-30K。此外,利用大规模数据集,我们提出了GenXD来处理一般的3D和4D生成。GenXD利用多视图时间模块来分离摄像机和对象的运动,并且能够通过掩码潜在条件支持任意数量的输入条件视图。GenXD可以处理各种应用,并且在一个模型下,所有设置中的性能均可达到或优于现有方法。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~