点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:计算机视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Edify 3D: Scalable High-Quality 3D Asset Generation
作者:Maciej Bala, Yin Cui, Yifan Ding, Yunhao Ge, Zekun Hao, Jon Hasselgren, Jacob Huffman, Jingyi Jin, J.P. Lewis, Zhaoshuo Li, Chen-Hsuan Lin, Yen-Chen Lin, Tsung-Yi Lin, Ming-Yu Liu, Alice Luo, Qianli Ma, Jacob Munkberg, Stella Shi, Fangyin Wei, Donglai Xiang, Jiashu Xu, Xiaohui Zeng, Qinsheng Zhang
机构:NVIDIA
原文链接:https://arxiv.org/abs/2411.07135
官方主页:https://research.nvidia.com/labs/dir/edify-3d
1. 导读
我们推出了Edify 3D,这是一款专为高质量3D资产生成而设计的高级解决方案。我们的方法首先使用扩散模型在多个视点合成所描述对象的RGB和表面法线图像。然后,多视图观察被用于重建物体的形状、纹理和PBR材料。我们的方法可以在2分钟的运行时间内生成具有详细几何形状、清晰形状拓扑、高分辨率纹理和材料的高质量3D资产。
2. 引言
在开发跨多个数字领域的场景、角色和环境时,创建详细的数字化三维(3D)资产至关重要。这种能力对于视频游戏设计、扩展现实、电影制作和模拟等行业而言具有不可估量的价值。为了让3D内容达到生产就绪状态,它必须满足行业标准,包括精确的网格结构、高分辨率纹理和材质贴图。因此,制作此类高质量的3D内容往往是一个极其复杂且耗时长的过程。随着对3D数字化体验的需求日益增长,在3D资产创建中高效且可扩展的解决方案变得愈发关键。
近期,许多研究工作已着手探索用于3D资产生成的人工智能(AI)模型的训练。然而,一个重大挑战在于,适合模型训练的3D资产数量有限。创建3D内容需要专业技能和专业知识,这使得此类资产相比图像和视频等其他视觉媒体而言更加稀缺。这种稀缺性引发了一个关键的研究问题,即如何设计可扩展模型来高效地从这些数据中生成高质量的3D资产。
Edify 3D是一款旨在生成高质量3D资产的高级解决方案,它解决了上述挑战,同时满足了行业标准。我们的模型能在不到2分钟内生成高质量的3D资产,提供详细的几何形状、清晰的形状拓扑结构、有序的UV贴图、高达4K分辨率的纹理以及基于物理的渲染(PBR)材质。与其他文本到3D的方法相比,Edify 3D始终能够生成更优质的3D形状和纹理,在效率和可扩展性方面均有显著提升。本技术报告详细描述了Edify 3D。
3. 核心能力
Edify 3D具备以下功能:
• 文本到3D的生成。给定一个输入文本描述,Edify 3D会生成具有上述属性的数字化3D资产。
• 图像到3D的生成。Edify 3D还可以根据物体的参考图像创建3D资产,自动识别图像中的前景物体。推荐课程:基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]。
• 模型设计。Edify 3D的核心技术依赖于两种神经网络:扩散模型和Transformer。随着更多训练数据的出现,这两种架构在提升生成质量方面都展现出了极大的可扩展性和成功。的方法,我们训练了以下模型:
• 多视图扩散模型。我们训练了多个扩散模型,以从多个视角合成物体的RGB外观和表面法线。输入可以是文本提示、参考图像或两者兼具。
• 重建模型。使用合成的多视图RGB图像和表面法线图像,重建模型会预测3D形状的几何形状、纹理和材质。我们采用基于Transformer的模型(Hong等,2023)来预测3D对象的神经表示作为潜在标记,随后进行等值面提取和网格处理。
4. 效果展示
Edify 3D是一个专为高质量3D资产生成而设计的模型。通过输入文本提示和/或参考图像,我们的模型可以生成各种详细的3D资产,支持电子游戏设计、扩展现实、模拟等应用。
文本到3D生成结果。我们展示了输入文本提示以及生成资源的渲染图和表面法线。生成的3D网格包含精细的几何形状和清晰的纹理,并具有分解良好的反照率颜色,这使得它们适用于各种下游编辑和渲染应用。
四边形网格拓扑。Edify 3D以具有清晰拓扑结构的四边形网格形式生成资源,使其适合下游编辑工作流。我们将生成资源的四边形网格拓扑与其基于物理的渲染(PBR)渲染图并列进行可视化。
5. 多视图扩散模型
Edify 3D的最终输出是一个包含网格几何形状、纹理贴图和材质贴图的3D资产。图2展示了Edify 3D的整体流程。
创建多视图图像的过程与视频生成的设计类似。我们通过用相机姿态对文本到图像模型进行条件化,将其微调为姿态感知的多视图扩散模型。这些模型以文本提示和相机姿态作为输入,并从不同视角合成物体的外观。我们训练了以下模型:
一个基础多视图扩散模型,它根据输入文本提示以及相机姿态来合成RGB外观。
一个多视图ControlNet模型,它根据多视图RGB合成和文本提示来合成物体的表面法线。
一个多视图上采样ControlNet,它将多视图RGB图像超分辨率化到更高分辨率,以给定3D网格的栅格化纹理和表面法线为条件。
我们使用Edify Image模型作为基础扩散模型架构,其包含一个具有27亿参数的U-Net,在像素空间中进行扩散。ControlNet编码器使用U-Net的权重进行初始化。我们扩展了原始文本到图像扩散模型中的自注意力层,引入了一种新机制,以跨不同视图进行注意力处理(图3),其作为具有相同权重的视频扩散模型。相机姿态(旋转和平移)通过轻量级多层感知器(MLP)进行编码,随后作为时间嵌入项添加到视频扩散模型架构中。
训练。我们在3D对象的渲染图像上对文本到图像模型进行微调。在训练期间,我们同时对自然2D图像和具有随机选择数量视图(1、4和8)的3D对象渲染进行联合训练。扩散模型使用x0参数化进行训练,与基础模型训练中使用的方法一致。对于多视图ControlNet,我们首先使用多视图表面法线图像对基础模型进行训练。随后,我们添加了一个以RGB图像为输入的ControlNet编码器,并在冻结基础模型的同时对其进行训练。
6. 重建模型
从图像观测中提取三维结构通常被称为摄影测量,该技术已被广泛应用于多种三维重建任务中。我们采用了一种基于Transformer的重建模型,从多视图图像中生成三维网格几何形状、纹理贴图和材质贴图。我们发现,基于Transformer的模型对未见过的物体图像表现出强大的泛化能力,包括从二维多视图扩散模型合成的输出。
我们使用了仅解码器的Transformer模型,其潜在的三维表示形式为三平面。输入的RGB图像和法线图像作为重建模型的条件,三平面标记和输入条件之间应用了交叉注意力层。三平面标记通过多层感知器(MLPs)进行处理,以预测用于有符号距离函数(SDF)和基于物理的渲染(PBR)属性的神经场,这些属性用于基于SDF的体积渲染。神经SDF通过等表面提取转换为三维网格。PBR属性通过UV映射烘焙到纹理贴图和材质贴图中,包括反照率颜色和材质属性,如粗糙度和金属通道。
训练。我们使用大规模图像和三维资产数据来训练我们的重建模型。该模型通过基于SDF的体积渲染在深度、法线、掩码、反照率和材质通道上进行监督,并使用艺术家生成网格的渲染输出。由于表面法线计算相对昂贵,我们仅在表面计算法线,并与真实值进行监督。我们发现,将SDF的不确定性与相应的渲染分辨率对齐,可以提高最终输出的视觉质量。此外,我们在损失计算期间屏蔽物体边缘,以避免由混叠引起的噪声样本。为了平滑跨样本的噪声梯度,我们应用指数移动平均(EMA)来聚合最终重建模型的权重。
网格后处理。在从等表面提取获得密集三角形三维网格后,我们按以下步骤对网格进行后处理:重新拓扑化为具有简化几何形状和自适应拓扑的四边形(quad)网格。根据所得四边形网格拓扑生成UV映射。将反照率和材质神经场分别烘焙到纹理贴图和材质贴图中。
这些后处理步骤使生成的网格更适合进一步的编辑,这对于艺术和设计导向的下游应用至关重要。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、视频/图片生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、扩散模型、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~