突破次元壁！GenXD：拿捏真实感3D、4D动态场景

科技 2024-11-30 13:00 广东

来源：新智元

在我们熟知的2D图像和视频生成技术蓬勃发展之际，3D和4D的世界依然是前沿科技的「无人区」。

面对真实场景中复杂的物体运动和视角变化，3D、4D生成一直面临数据和模型设计的双重瓶颈。然而，一项令人振奋的突破即将改变这一现状！

近日，新加坡国立大学（NUS）的研究人员提出了一种全新的生成框架——GenXD，不但能生成极具真实感的3D场景，还实现了从相机视角和物体图片中「生长」出逼真的4D动态场景。

项目主页：https://gen-x-d.github.io/

论文链接：https://arxiv.org/abs/2411.02319

代码链接：https://github.com/HeliosZhao/GenXD

GenXD能够实现单图片静态虚拟物体和场景的生成，实现高质量的3D内容创作：

GenXD也能够实现稀疏图片场景的重建，作为先验完善3D重建任务：

GenXD可以实现单图4D生成，生成任意时刻以及任意视角：

GenXD也能够助力视频插帧和可控视频生成，使用多图和相机路径作为控制信号：

CamVid-30K 4D数据构建

图1 数据标注

在动态3D任务的发展中，缺乏大规模4D场景数据一直是一个关键瓶颈。这不仅影响到4D生成、动态相机姿态估计等任务，也限制了可控视频生成等应用的进展。

为了解决这一难题，研究团队推出了一个高质量4D数据集——CamVid-30K，为未来的动态3D任务奠定了坚实基础。

CamVid-30K数据集的创建过程包括了一系列精细的步骤。首先，研究人员使用基于运动恢复结构（SfM）的方法来估计相机姿态。

SfM通过从多张图像的投影中重建3D结构，其中包括特征检测与提取、特征匹配、3D重建与相机姿态估计等关键步骤。

为了确保准确性，特征匹配仅限于静态场景部分，以避免动态物体误导相机的运动估计。

与之前方法不同的是，CamVid-30K使用了一种实例分割模型，将所有可能移动的像素进行分割。

相比早期的运动分割模块，该实例分割方法具备更强的泛化能力，特别是在复杂场景下更为适用。随后，利用改进的Particle-SfM对静态背景进行处理，最终生成精准的相机姿态和稀疏点云信息。

为进一步筛选出真正的动态场景，CamVid-30K还引入了运动强度指标来识别物体的真实运动。通过对齐深度投影，将动态物体在3D空间中进行重投影，以便检测位移，确保所包含的场景具有丰富的动态细节。这一过程确保了CamVid-30K不仅包含相机的运动信息，还捕捉到了物体本身的运动，使其成为高质量的4D数据资源。

模型架构

图2 整体框架

为了实现更自然的3D和4D场景生成，GenXD使用隐变量扩散模型（LDM），生成出符合相机视角和时间序列的场景图像。此外，GenXD提出多视角-时间层，将3D和时间信息有效解耦和融合。

对于相机视角信息，GenXD使用每个视角下的Plucker Ray作为控制信号。而对于单张或多张图像信息，GenXD使用掩码隐变量条件（mask latent conditioning）方式利用图像信息。

该方法在图像条件输入时具有三大优势：首先，无需对模型参数进行修改，便可以支持任意视角输入；其次，在多视图生成或视频生成过程中，无需固定条件帧的位置，确保了更大的灵活性；最后，省去了额外的条件嵌入，从而减少了模型参数量。这种设计不仅使得GenXD更高效，还可以处理复杂的多视角输入场景。

为了实现3D和4D的生成，GenXD引入了多视角-时间模块，分别对多视角信息和时间信息进行建模。通过设计多视角层与时间层，GenXD可以在3D生成时忽略时间信息，而在4D生成时引入多视角与时间信息的融合。

此外，模型采用了alpha融合策略，利用一个可学习的融合权重来控制4D生成的多视角和时间信息融合效果，从而实现更精准的动态场景生成。

此外，为了解决运动控制的问题，GenXD将CamVid-30K数据集中提供的运动强度引入多视角-时间ResBlock中。这样，模型可以准确地表达物体运动，从而在生成的场景中体现更自然的动态效果。

实验结果

GenXD在单视角4D生成，相机控制的视频生成，单视角3D生成以及少视角3D重建任务上均可用，并取得了很好的效果。

单视角4D生成

表1 单视角4D生成

对于单视角4D生成，GenXD首先生成4D视频，然后使用生成的视频优化4D高斯泼溅网络因此，与过去基于SDS的方法相比，GenXD有更快的优化速度，也有更好的效果。

相机控制的视频生成

表2 相机控制的视频生成

GenXD也与过去相机控制的运动生成方法进行了比较，过去的方法只能使用单张图片作为条件，无法实现视频插帧的功能。但单图条件下，GenXD超越过去的方法，若使用多图作为条件，GenXD的效果可以得到更大的提升。

单视角3D生成

表3 单视角3D生成

图3 单视角3D生成

GenXD也在3D合成物体生成任务上进行了评估。在此任务上，GenXD首先生成360度视频，并利用此视频优化3D高斯泼溅网络。过去的方法在合成物体3D数据集上单独训练，而GenXD使用了不同分布的真实数据和4D数据。即使如此，GenXD也与过去的方法有相近的效果。此外，从可视化结果来看，GenXD没有过去方法常见的过度平滑和过度饱和问题。

少视角3D重建

表4 少视角3D重建

图4 少视角3D重建

GenXD可以使用多张图片作为条件，生成尺度一致的3D内容。因此，GenXD可以将生成的图片作为补充，提升少视角3D重建的效果。在此项目中，GenXD与两个重建网络（ZipNeRF和3DGS）相结合，极大地提升重建的效果。

运动控制

图5 运动控制

数据标注管线中提出了运动强度的概念，并且被引入到多视角-时间ResBlock里进行运动控制。图5可视化了运动控制的效果。使用同样的图片和相机条件，增大运动强度可以提高物体运动的速度，从而实现可控生成。

总结

GenXD模型和CamVid-30K数据集为3D和4D生成领域带来了全新突破。通过设计多视角-时间模块并引入掩码隐变量条件，GenXD不仅能够解耦相机和物体的运动，还可以支持任意数量的条件视图输入。

GenXD展示了在各类应用中的强大适应性，且在多项任务中达到了与现有方法相当或更优的表现。这一成果为未来的3D和4D生成任务奠定了坚实的基础，预示着虚拟世界构建与动态场景生成的无限可能。

参考资料：

https://gen-x-d.github.io/

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群！

大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）
👆 长按识别，邀请您进群！

深度学习技术前沿

本公众号专注于深度学习领域的前沿技术分享和学术交流。推送有关于机器学习、深度学习、强化学习、计算机视觉、自然语言处理等领域干货文章，致力于在第一时间内汇集和发布最新人工智能技术和前沿资讯。

最新文章

院士领衔，武汉大学成立人工智能学院！

高中生手撕2.5万行代码，火爆全网！

毕业即失业？美国顶尖高校博士直呼太卷。。。

斯坦福李飞飞：AI将取代人类？

手握14篇CNS! 他是施一公最低调的弟子

全球五大巨头GPU总量曝光！2025年H100或超过1240万块

又倒下一家车企，极越“暴雷”了！

3名高中生，重新证明百年数学定理

大模型创业太累，又一位大牛逃回大厂

吴恩达教授最新作品开源，支持一键调用大模型！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰。。。。

2025 IEEE Fellow名单正式公布！

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临

美国莱斯大学魏晨老师招收CV/机器学习方向全奖博士生

谢赛宁：反直觉？训练扩散模型原来这么简单

2位享有国际影响力的顶尖学者，加盟985大学

阿卜杜拉国王科技大学招博后- 年薪50w+（免税）

涨点神器！100个即插即用注意力模块

喜提 TPAMI 顶刊！

项目爆火，立刻撤退！谷歌大模型核心团队被爆集体离职。。。。

超过清华！985高校，一年22亿！

LLM高手！大佬开源学习笔记

ICLR 惊现满分论文，四个 10 分！ControlNet 作者新作，Github 5.8k 颗星

名单确定！新一轮“双一流”，突围！

27岁应届博士生，毕业即任上海交大博导！

突破次元壁！GenXD：拿捏真实感3D、4D动态场景

中国生成式AI大会，涵盖大模型、AI Infra、端侧AI、视频生成和具身智能等方向

AI造芯Nature论文遭围攻，Jeff Dean怒怼：拒绝学术抹黑！

中国科学院院士，加盟清华大学！

腾讯元宝2.0：鹅厂全家桶来啦！

12万人面临降薪！国际巨头内部大动荡。。。

RTX 4090可运行，已完全开源，史上最快视频生成模型问世！

一位阿里P9的年薪和家庭资产

黄仁勋与沈向洋院士对谈GPU算力、机器人和爱情

AI顶会AAAI收了一篇论文：没算法没实验，全靠idea思路好...

打破纪录！中国科学家让薛定谔的猫活了23分钟

硅谷最神秘的「黑手党」纷纷出走创业，融资近百亿！足以改变整个AI格局的革命

CV大神，MIT何恺明教授最新课程资料！

六院院士！又一顶尖学者归国，全职加盟清华大学

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走。。。

国际巨头，AMD宣布全球裁员4%！

大模型推理加速技术的学习路线是什么?

吴恩达：大模型的下一个热门方向

3名高中生杀出重围，论文已被顶会 NeurIPS 2024录用

香港城市大学招机器学习 /大语言模型方向全奖博士

教授含泪惜别“双一流”高校：教学，影响了我原创性科研成果的产出

谷歌2024博士奖学金名单揭晓！清华姚班大神、KAN一作大佬入选

被美国“制裁”的中国大学名单。。。

美国司法部勒令谷歌出售 Chrome

耽误业界好多年？ Karpathy：现在回想，真的后悔极了。。。。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉