港科大&清华重磅开源DimensionX:从单图像创建一切3D和4D场景!

科技   2024-11-10 00:01   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

作者:Wenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang

机构:HKUST、Tsinghua University、ShengShu

原文链接:https://arxiv.org/abs/2411.04928

代码链接:https://github.com/wenqsun/DimensionX

官方主页:https://chenshuo20.github.io/DimensionX/

1. 导读

在本文中,我们介绍了DimensionX,这是一个旨在通过视频扩散从单幅图像中生成真实感3D和4D场景的框架。我们的方法始于这样的认识,即3D场景的空间结构和4D场景的时间演变都可以通过视频帧序列来有效地表示。虽然最近的视频扩散模型在产生生动的视觉效果方面表现出显著的成功,但是由于生成期间有限的空间和时间可控性,它们在直接恢复3D/4D场景方面面临限制。为了克服这一点,我们提出了ST-Director,它通过从维度变化的数据中学习维度感知的LoRAs,将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法能够精确控制空间结构和时间动态,允许我们结合空间和时间维度从连续帧中重建3D和4D表示。此外,为了弥合生成的视频和现实世界场景之间的差距,我们为3D生成引入了轨迹感知机制,并为4D生成引入了保持身份的去噪策略。在各种真实世界和合成数据集上的大量实验表明,与以前的方法相比,DimensionX在可控视频生成以及3D和4D场景生成方面取得了优异的结果。

2. 引言

在计算机图形学和视觉领域,理解和生成3D及4D内容是创造逼真视觉体验的关键。通过表示空间(3D)和时间(4D)维度,视频成为捕捉动态真实世界场景的强大媒介。尽管3D和4D重建技术取得了显著进展,但大规模3D和4D视频数据集仍存在严重短缺,这限制了从单幅图像生成高质量3D和4D场景的可能性。这种稀缺性对构建逼真且交互式的环境构成了根本性挑战。

幸运的是,视频扩散模型方面的最新进展在理解和模拟真实环境方面显示出巨大潜力。在先进视频扩散模型的推动下,近期的研究工作尝试利用嵌入在视频扩散中的空间和时间先验,从单幅图像生成3D和4D内容。尽管取得了这些快速发展,但现有方法要么专注于使用在静态或动态网格渲染上训练的视频扩散进行对象级生成,要么采用耗时且针对每个场景优化的方法来进行粗略的场景级生成(例如,Score Distillation Sampling)。这使得连贯且逼真的3D/4D场景生成仍是一个悬而未决的挑战。

在本文中,我们提出了DimensionX,这是一种新颖的方法,用于通过可控视频扩散从单幅图像创建高保真3D和4D场景。尽管近期的视频扩散模型能够产生逼真的结果,但直接从这些生成的视频中重建3D和4D场景仍然困难重重,这主要归因于它们在生成过程中空间和时间可控性较差。我们的关键见解是将视频扩散中的时间和空间因素解耦,从而能够单独或组合地对它们进行精确控制。为了实现维度感知控制,我们建立了一个综合框架来收集在空间和时间维度上变化的数据集。利用这些数据集,我们提出了ST-Director,它通过维度感知Lo-RAs将视频扩散中的空间和时间先验分离。此外,通过分析视频扩散中的去噪机制,我们开发了一种无需训练的组合方法,实现了混合维度控制。通过这种控制,DimensionX能够生成在空间和时间上变化的帧序列,从而能够重建3D外观和4D动态运动。为了使用我们的ST-Director处理复杂的真实世界场景,我们为3D生成设计了一种轨迹感知方法,并为4D生成设计了一种身份保持去噪机制。大量实验表明,我们的DimensionX在3D和4D场景生成的视觉质量和泛化能力方面优于先前的方法,这表明视频扩散模型为创建逼真且动态的环境提供了一个有前途的方向。推荐课程:为什么说colmap仍然是三维重建的核心?

3. 效果展示

只需一幅图像作为输入,我们提出的DimensionX就可以生成高度逼真的视频和3D/4D环境,这些环境可以感知空间和时间维度。

维度感知视频生成中的定性比较。给定相同的图像和文本提示,第一行是随时间变化的视频生成(相机静态),第二行是随空间变化的视频生成(相机缩小),第三行是随空间和时间变化的视频生成(相机向右环绕)。

稀疏视图三维生成中的定性比较。给定两个大角度视图,我们的方法明显优于其他基线。

4. 主要贡献

我们的主要贡献如下:

• 我们提出了DimensionX,这是一个新颖框架,它使用可控视频扩散仅从单幅图像生成逼真的3D和4D场景。

• 我们提出了ST-Director,它通过学习(空间和时间)维度感知模块并利用我们整理的数据集,将视频扩散模型中的空间和时间先验解耦。我们根据视频扩散去噪过程的本质,通过一种无需训练的组合方法进一步增强了混合维度控制。

• 为了弥合视频扩散与真实世界场景之间的鸿沟,我们为3D生成设计了一种轨迹感知机制,并为4D生成设计了一种身份保持去噪方法,从而实现了更逼真且可控的场景合成。

• 大量实验表明,与基线方法相比,我们的DimensionX在视频、3D和4D生成方面表现出优越的性能。

5. 方法

给定单幅图像,我们的目标是使用可控视频扩散生成高质量的3D和4D场景。为了实现空间和时间维度的有效控制,我们首先开发了一个系统性框架来构建维度变化的数据集。利用整理后的数据集,我们引入了ST-Director,它通过维度感知LoRA将空间和时间基础解耦,从而实现精确的维度感知控制。此外,我们探索了视频生成过程中的去噪机制,并引入了一种无需训练的维度感知组合方法,以实现有效的混合维度控制。为了更好地利用可控视频扩散生成高质量场景,我们为3D生成设计了一种轨迹感知机制,并为4D生成设计了一种身份保持去噪方法。

6. 实验结果

表2中的定性结果展示了我们所提出方法的卓越性能,包括更好的视觉质量和3D一致性。我们的DimensionX框架实现了对视频扩散模型空间和时间参数的有效分解,而Dream Machine则无法实现维度感知控制的解耦,即使我们利用了相机运动和提示约束。此外,对于包括空间和时间运动在内的混合维度控制,与Dream Machine相比,我们的DimensionX能够生成更加令人印象深刻且动态的视频。定量和定性结果均表明,我们的方法能够在保持动态运动和主体一致性的同时,创建可控的视频。

表1展示了定量比较结果。我们可以观察到,DimensionX在所有指标上都优于基线方法,这再次证明了我们的方法具有卓越的性能。在单视图和稀疏视图设置下,我们的方法都能够重建高质量的3D场景,而其他基线方法则无法处理这些具有挑战性的情况。

4D场景生成的定性结果。给定真实世界或合成的单个图像,我们的DimensionX产生具有丰富特征的连贯且复杂的4D场景。

7. 总结 & 未来工作

在本文中,我们介绍了DimensionX,这是一个新颖的框架,它能够从仅包含可控视频扩散的单张图像中创建逼真的3D和4D场景。我们的核心见解是引入ST-Director来解耦视频扩散模型中的空间和时间先验,通过在维度变化的数据集上学习维度感知的LoRA来实现这一点。此外,我们还研究了视频扩散的去噪过程,并引入了一种无需调整的维度感知组合,以实现混合维度控制。借助可控的视频扩散,我们可以从连续生成的视频帧中恢复精确的3D结构和4D动态。为了进一步增强DimensionX在现实场景中的泛化能力,我们为3D场景生成定制了一种轨迹感知策略,并为4D场景生成定制了一种身份感知机制。在各种现实和合成数据集上的广泛实验表明,我们的方法在可控视频生成以及3D和4D场景生成方面均达到了最先进的性能。

局限性和未来工作。尽管取得了显著成就,但我们的DimensionX框架仍受到扩散模型骨干网络的限制。尽管当前的视频扩散模型能够合成逼真的结果,但它们仍然难以理解和生成微妙的细节,这限制了合成3D和4D场景的质量。此外,视频扩散模型漫长的推理过程阻碍了我们的生成过程的效率。在未来,值得探索如何将扩散模型整合在一起,以实现更高效的端到端3D和4D生成。我们相信,我们的研究为使用视频扩散模型创建动态和交互式环境提供了一个有前景的方向。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章