新国立&微软重磅开源！GenXD：生成一切3D和4D场景！

科技 2024-11-06 07:05 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：GenXD: Generating Any 3D and 4D Scenes

作者：Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang

机构：National University of Singapore、Microsoft Corporation

原文链接：https://arxiv.org/pdf/2411.02319

代码链接：https://github.com/HeliosZhao/GenXD

官方主页：https://gen-x-d.github.io/

1. 导读

2D视觉一代最近的发展非常成功。然而，由于缺乏大规模4D数据和有效的模型设计，3D和4D生成在现实世界的应用中仍然具有挑战性。在本文中，我们提出通过利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区中缺乏真实世界的4D数据，我们首先提出了一个数据策展管道来从视频中获取相机姿态和对象运动强度。基于这个流水线，我们引入了一个大规模真实世界4D场景数据集:CamVid-30K。通过利用所有的3D和4D数据，我们开发了我们的框架GenXD，它允许我们制作任何3D或4D场景。我们提出了多视图-时间模块，将相机和物体运动分开，无缝地从3D和4D数据中学习。此外，GenXD采用屏蔽的潜在条件来支持各种条件视图。GenXD可以生成遵循相机轨迹的视频以及一致的3D视图，这些视图可以提升为3D表示。我们在各种真实世界和合成数据集上进行了广泛的评估，与之前的3D和4D生成方法相比，证明了GenXD的有效性和多功能性。

2. 引言

生成二维视觉内容在扩散模型和自回归建模方面取得了显著成功，这些技术已被应用于现实世界，造福社会。除了二维生成，三维内容生成也至关重要，它应用于视频游戏、视觉特效和可穿戴混合现实设备等领域。然而，由于三维建模的复杂性和三维数据的局限性，三维内容生成仍远未达到令人满意的效果，并正吸引更多关注。在本文中，我们专注于三维和四维内容的统一生成。具体而言，静态三维内容仅涉及空间视角的变化，本文称之为三维生成。相比之下，动态三维内容包含场景中的可移动对象，需要同时建模空间视角和动态（时间）变化，我们称之为四维生成。

大多数先前的工作使用合成对象数据进行三维和四维生成。合成对象数据通常是网格，研究人员可以从任何视角渲染图像和其他三维信息（如法线和深度）。然而，对象生成对专业人士比对普通大众更有益。相比之下，场景级生成可以帮助每个人通过更丰富的内容来增强他们的图像和视频。因此，近期工作探索了单个模型中的通用三维生成（包括场景级和对象级），并取得了令人印象深刻的性能。尽管如此，这些工作仅关注静态三维生成，未涉及动态内容。在本文中，我们提出了一个用于通用三维和四维生成的统一框架，该框架能够使用任意数量的条件图像从不同视角和时间步长生成图像。

四维生成的首要挑战是缺乏通用的四维数据。在这项工作中，我们提出了CamVid-30K，它包含大约30K个四维数据样本。四维数据需要多视角空间信息和时间动态，因此我们转向视频数据来获取必要的四维数据。具体而言，我们需要从视频中获取两个关键属性：每帧的相机姿态和可移动对象的存在。为实现这一点，我们首先使用分割模型估计视频中可能的可移动对象，然后使用场景中静态部分的关键点估计相机姿态。虽然成功的相机姿态估计确保了多个视角，但我们还需要确保视频中存在移动对象，而非纯静态场景。为解决这一问题，我们提出了一个对象运动场，该运动场利用对齐的深度来估计二维视图中的真实对象运动。基于对象运动场，我们过滤掉静态场景，得到大约30K个具有相机姿态的视频。推荐课程：彻底搞懂3D人脸重建原理，从基础知识、算法讲解、代码解读和落地应用。

此外，我们提出了一个统一框架GenXD，以在单个模型中处理三维和四维生成。虽然三维和四维数据在表示空间信息方面存在相似性，但它们在捕获时间信息方面存在差异。因此，通过分离空间和时间信息，三维和四维生成可以相互补充。为实现这一点，我们在模型训练期间结合了三维和四维数据。为分离空间和时间信息，我们在GenXD中引入了多视角-时间模块。在每个模块中，我们使用α融合来合并四维数据的空间和时间信息，同时为三维数据去除时间信息。先前的工作通常使用固定数量的条件图像（例如，第一张图像）。然而，单图像条件可以更具创意，而多图像条件则提供了更大的一致性。因此，我们在扩散模型中实现了掩码潜在条件。通过掩码掉条件图像中的噪声，GenXD可以支持任意数量的输入视角，而无需修改网络。凭借高质量的四维数据和四维时空生成模型，GenXD在使用单个或多个输入视角的三维和四维生成方面均取得了显著性能。

3. 效果展示

GenXD是从任意数量的条件图像生成高质量3D和4D的统一模型。通过控制运动强度和条件掩码，GenXD无需任何修改即可支持各种应用。状态图像用星形图标显示，时间维度用虚线表示。

4. 主要贡献

我们的贡献总结如下：

• 我们设计了一个数据整理流程，从视频中获取包含可移动对象的高质量四维数据，并为30,000个视频标注了相机姿态。这个大规模数据集，称为CamVid-30K，将供公众使用。

• 我们提出了一个三维-四维联合框架GenXD，该框架支持在各种设置下以图像为条件的三维和四维生成。在GenXD中，引入了多视角-时间层来分离和融合多视角和时间信息。

• 使用提出的CamVid-30K以及其他现有的三维和四维数据集，GenXD在单视角三维对象生成、少视角三维场景重建、单视角四维生成以及单/多视角四维生成方面，实现了与先前最先进方法和基线方法相当或更优的性能。

5. 方法

大规模四维场景数据的缺乏限制了动态三维任务的发展，包括但不限于四维生成、动态相机姿态估计和可控视频生成。为解决这一问题，本文介绍了一个高质量的四维数据集。首先，我们使用基于运动恢复结构（SfM）的方法估计相机姿态，然后使用提出的运动强度过滤掉没有对象移动的数据。该流程如图2所示。

通过每个对象的运动场，我们可以通过计算运动场绝对值的平均值来估计对象的整体运动。对于每个视频，运动强度由所有对象中最大的运动值来表示。如图3所示，当摄像机移动而对象保持静止时（第二个示例），与对象运动的视频相比，运动强度明显较小。利用运动强度，我们可以进一步过滤掉缺乏明显对象运动的数据。运动强度值也是衡量对象运动规模的一个良好指标，它在时间层中被用来实现更好的运动控制。

参考图像的条件更为复杂。GenXD旨在通过单个和多个输入视图来进行3D和4D生成。单视图生成的要求较低，而多视图生成的结果更为一致。因此，结合单视图和多视图生成将带来更好的实际应用效果。然而，之前的工作通过将条件潜在变量与目标潜在变量拼接，并通过交叉注意力机制融入CLIP图像嵌入来对图像进行条件处理。拼接方式需要改变模型的通道，因此无法处理任意输入视图。CLIP嵌入可以支持多个条件。然而，这两种方式都无法对多个条件的位置信息进行建模，也无法对输入视图之间的信息进行建模。鉴于这些限制，我们利用掩码潜在条件来处理图像条件。如图4所示，在使用VAE编码器进行编码后，对目标帧（第二帧和第三帧）应用正向扩散过程，而条件潜在变量（第一帧）则保持不变。然后，通过去噪模型估计这两帧上的噪声，并通过反向过程去除噪声。

6. 实验结果

7. 总结

在本文中，我们研究了使用扩散模型进行一般的3D和4D生成。为了增强4D生成的学习，我们首先提出了一个数据整理流程，用于标注视频中的摄像机和对象运动。借助该流程，本文引入了最大的现实世界4D场景数据集CamVid-30K。此外，利用大规模数据集，我们提出了GenXD来处理一般的3D和4D生成。GenXD利用多视图时间模块来分离摄像机和对象的运动，并且能够通过掩码潜在条件支持任意数量的输入条件视图。GenXD可以处理各种应用，并且在一个模型下，所有设置中的性能均可达到或优于现有方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247709860&idx=4&sn=b44b80776fee49a80ed441261accc398

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉