1分钟生成高质量3D内容，Meta 3DGen如何实现生成式AI的奇迹？

文摘 2024-07-08 00:08 美国

基础模型迭代的速度越来越快，文生视频有望成为下一个巨头的必争之地。7月2日，Meta发布其3D文生视频模型Meta 3DGen。在1分钟内生成高质量3D内容？Meta 3DGen通过生成式AI，根据文本描述，快速生成高分辨率纹理和材质贴图，实现创作效率的飞跃。

继文本、代码、图片、视频之后，下一个有可能实现突破的模态大概率是3D。目前，AI+3D技术在海外主要分为工业场景探索与非工业场景探索。Meta 3DGen 的推出展示了AI在3D建模领域的巨大潜力，有望推动该领域的技术进步。

翻看了一下论文，下面简要对论文的主要结论、创新点、算法设计、实验对比结果、应用场景等展开分析：

论文的主要贡献：

3DGen 管道的引入：Meta 3DGen 是一个从文本描述生成 3D 资产的管道。它集成了两个核心组件：用于文本到 3D 生成的 Meta 3D AssetGen 和用于文本到纹理生成的 Meta 3D TextureGen。该管道支持基于物理渲染 (PBR)，这对于在实际应用中重新照亮 3D 资产至关重要。

管道阶段：利用 Meta 3D TextureGen 对初始生成的 3D 资产进行纹理优化，进一步提高纹理的质量和分辨率。使用 Meta 3D AssetGen 从文本提示生成初始 3D 网格，包括纹理和 PBR 材料映射。该过程包括生成对象的多个视图，重建 3D 网格并创建初始纹理。第一阶段：3D 资产生成，而第二阶段为：纹理优化。

技术方法：3DGen 通过结合视图空间、体积空间和 UV 空间中的 3D 对象表示，显著提高了生成的 3D 资产的质量。AssetGen 生成对象的多个一致视图，然后通过重建网络提取 3D 对象的初始版本。TextureGen 使用视图空间和 UV 空间生成进一步提升纹理质量和分辨率，同时保持与初始提示的一致性。
性能与评估：3DGen 在生成速度和提示忠实度方面优于多个行业基准，尤其是在处理复杂文本提示时表现突出。该系统在专业 3D 艺术家评估中显示出明显的优势，特别是在复杂提示下。3DGen 能够在不到一分钟的时间内生成高质量的 3D 资产，同时提供更好的视觉质量和结构拓扑。
用户研究与结果：通过用户研究，3DGen 在提示忠实度和视觉质量方面超越了多个行业基准。对比实验显示，用户更偏好 3DGen 生成的资产，特别是在纹理和几何细节方面。

实验结果与比较：

与行业基准的对比：3DGen 在提示忠实度、视觉质量和生成速度方面表现优于 CSM Cube 2.0、Tripo3D、Rodin Gen-1、Meshy v3 和其他第三方文本到 3D 生成器。3DGen 在大多数评估指标上均表现出色，尤其是在处理复杂场景和组合提示时。
质性结果：在质性对比中，3DGen 的第二阶段生成比第一阶段生成具有更高的视觉美感、更加逼真和更高频的细节。在生成纹理的任务中，3DGen 能够根据不同的文本提示重新纹理化生成的 3D 网格，展示了对不同材料和艺术风格的成功模仿。

Meta 3D Gen 通过整合 AssetGen 和 TextureGen 两个强大的生成模型，提供了一种高效且高质量的文本到 3D 生成解决方案。
该管道能够在不到一分钟的时间内从文本提示生成高质量的 3D 对象，并在专业评估中表现出色，尤其是在处理复杂提示时。
尽管当前的集成较为直接，但为进一步研究和改进 3D 生成技术指明了方向，特别是在视图空间和 UV 空间的生成以及纹理和形状生成的端到端迭代方面。

这些分析表明，Meta 3D Gen 在 3D 内容生成领域具有显著的优势和潜力，能够为游戏开发、虚拟现实、电影特效等多个应用场景提供支持。

【本模型的核心创新点】

多视图生成和一致性：

创新点：采用多视图和多通道文本到图像生成模型，生成对象的多个一致视图。
贡献：解决了单视图生成中的一致性问题，使生成的 3D 资产在不同视角下保持一致，避免了传统方法中视角不一致和细节丢失的问题。

体积空间重建：

创新点：通过重建网络从多个视图中提取 3D 对象的体积空间表示，并生成初始 3D 网格和纹理。
贡献：结合多个视图的信息，生成的 3D 网格更加精确和完整，提高了 3D 对象的形状和结构质量。

纹理投影和融合：

创新点：采用投影和融合技术，将多个视图生成的部分纹理投影到 UV 空间，并通过纹理融合网络提升纹理质量。
贡献：确保生成的纹理在不同视图之间保持一致，并提高了纹理的细节和清晰度，解决了传统方法中纹理细节不足和视角不一致的问题。

基于物理的渲染（PBR）支持：

创新点：生成的 3D 资产支持基于物理的渲染（PBR）。
贡献：提高了生成的 3D 资产在不同光照条件下的真实感和视觉效果，使其更适用于实际应用场景，如游戏开发和虚拟现实。

端到端迭代：

创新点：在生成 3D 对象和纹理的过程中进行多次迭代，每次迭代利用前一次生成的结果进一步优化。
贡献：提高了最终生成结果的整体质量和一致性，解决了传统单阶段生成方法中常见的质量和细节不足的问题。

集成 Emu 系列图像生成模型：

创新点：通过对 Emu 图像生成模型进行微调，使其能够在多视图和 UV 空间中进行生成。
贡献：提高了生成的图像和纹理的质量和分辨率，确保在 3D 资产生成中的高保真度和高质量。

主要贡献

高效的文本到 3D 生成管道：Meta 3DGen 提供了一种高效且高质量的文本到 3D 生成解决方案，在不到一分钟的时间内生成高质量的 3D 资产，适用于游戏开发、虚拟现实和电影特效等多种应用场景。
多视图生成和一致性：通过多视图生成方法，解决了传统单视图生成中的一致性问题，提高了 3D 资产的整体质量和视觉效果。
纹理投影和融合：采用先进的纹理投影和融合技术，确保生成的纹理在不同视图之间保持一致，并提高了纹理的细节和清晰度。
支持 PBR 渲染：生成的 3D 资产支持基于物理的渲染，提高了在不同光照条件下的真实感和视觉效果，使其更适用于实际应用场景。
端到端迭代优化：通过端到端迭代优化，提高了最终生成结果的整体质量和一致性，解决了传统单阶段生成方法中常见的质量和细节不足的问题。
综合性能优异：在生成速度、提示忠实度和视觉质量方面，Meta 3DGen 均显著优于多个行业标准模型，特别是在处理复杂提示时表现突出。

实验结果证明

生成时间：Meta 3DGen 在生成时间上显著快于大多数其他模型，特别是在阶段 II 的纹理优化上，仅需 1 分钟。
提示忠实度：Meta 3DGen 在用户研究中显示出最高的提示忠实度，阶段 II 的忠实度为 81.7%。
视觉质量：在用户和专业 3D 艺术家的评价中，Meta 3DGen 在整体视觉质量、几何细节和纹理细节方面均表现优异，胜率最高。

Meta 3DGen 通过在多视图生成、一致性、体积空间重建、纹理投影和融合、PBR 支持以及端到端迭代等方面的创新，提供了一种高效且高质量的文本到 3D 生成解决方案，显著优于现有行业标准模型。

【本论文的核心算法设计】

1. 管道概述

Meta 3DGen 是一个由两个主要组件组成的两阶段管道：Meta 3D AssetGen 和 Meta 3D TextureGen。每个组件分别处理 3D 资产的生成和纹理的优化。

2. 阶段 I：3D 资产生成

Meta 3D AssetGen 使用多视图和多通道文本到图像生成模型来创建 3D 资产。

输入：文本提示
输出：初始 3D 网格和纹理

步骤：

3. 阶段 II：纹理优化

Meta 3D TextureGen 优化初始生成的 3D 资产的纹理质量和分辨率。

输入：初始 3D 资产（来自阶段 I 的网格和纹理）
输出：优化的高质量纹理

4. 算法集成

通过将 AssetGen 和 TextureGen 的功能集成在一起，Meta 3DGen 提供了一种高质量的文本到 3D 生成解决方案。

视图空间和 UV 空间结合：通过在视图空间生成初始 3D 资产，并在 UV 空间进行纹理优化，实现了更高质量和一致性的 3D 生成。
端到端迭代：在纹理和形状生成之间进行端到端迭代，提高了生成结果的整体质量。

5. 关键技术细节

多视图生成：利用多视图生成模型，确保从不同角度生成一致的视图，以提高 3D 资产的重建质量。
体积空间重建：通过体积空间重建方法，将多个视图的信息整合为一个完整的 3D 网格。
纹理投影和融合：采用先进的投影和融合技术，确保生成的纹理在不同视图之间保持一致，并提高纹理的细节和分辨率。
PBR 支持：生成的 3D 资产支持基于物理的渲染（PBR），确保在实际应用中的高质量重新照亮效果。

这些算法设计和技术方法使得 Meta 3DGen 能够在较短时间内生成高质量的 3D 资产，并在提示忠实度和视觉质量方面超越多个行业基准。

在文本到3D生成的算法中，Meta 3DGen 管道相对于传统的 Transformer 模型进行了多项改进，以提高生成质量和效率：

1. 多视图生成和一致性

传统的 Transformer 模型主要用于生成单一视图的图像或文本，而 Meta 3DGen 采用了多视图生成的方法：使用多视图和多通道版本的文本到图像生成器，确保从不同角度生成的一致视图，提高了 3D 资产的重建质量。解决了单视图生成中的一致性问题，使生成的 3D 资产在不同视角下保持一致，避免了传统方法中常见的视角不一致和细节丢失问题。

2. 体积空间重建

传统的 Transformer 模型在处理3D重建任务时通常局限于2D图像生成，而 Meta 3DGen 集成了体积空间重建技术：使用重建网络从多个视图中提取 3D 对象的体积空间表示，并生成初始 3D 网格和纹理。通过结合多个视图的信息，生成的 3D 网格更加精确和完整，提高了 3D 对象的形状和结构质量。

3. 纹理投影和融合

在生成高质量纹理方面，Meta 3DGen 对传统 Transformer 模型进行了改进，特别是在纹理的生成和优化过程中：采用投影和融合技术，将多个视图生成的部分纹理投影到 UV 空间，并通过纹理融合网络提升纹理质量。确保生成的纹理在不同视图之间保持一致，并提高了纹理的细节和清晰度，解决了传统方法中纹理细节不足和视角不一致的问题。

4. 基于物理的渲染（PBR）支持

传统的 Transformer 模型通常不支持基于物理的渲染，而 Meta 3DGen 集成了这一功能：支持生成 PBR 材料映射，使生成的 3D 资产能够在实际应用中重新照亮和渲染。提高了生成的 3D 资产在不同光照条件下的真实感和视觉效果，使其更适用于实际应用场景，如游戏开发和虚拟现实。

5. 端到端迭代

Meta 3DGen 采用了端到端的迭代生成方法，而不是传统 Transformer 模型中的单阶段生成：在生成 3D 对象和纹理的过程中进行多次迭代，每次迭代利用前一次生成的结果进一步优化。提高了最终生成结果的整体质量和一致性，解决了传统单阶段生成方法中常见的质量和细节不足的问题。

6. 集成 Emu 系列图像生成模型

Meta 3DGen 构建在 Emu 系列图像生成模型的基础上，进行了专门的调整和优化：通过对 Emu 图像生成模型进行微调，使其能够在多视图和 UV 空间中进行生成。提高了生成的图像和纹理的质量和分辨率，确保在 3D 资产生成中的高保真度和高质量。

Meta 3DGen 通过在多视图生成、一致性、体积空间重建、纹理投影和融合、PBR 支持以及端到端迭代等方面对传统 Transformer 模型进行了多项改进。这些改进使得 Meta 3DGen 能够高效地生成高质量的 3D 资产，在提示忠实度和视觉质量方面表现出色，超越了多个行业基准。

【实验过程设计】

实验目标：

评估 Meta 3DGen 在生成速度、提示忠实度和视觉质量方面的表现。
比较 Meta 3DGen 与现有行业标准模型的性能。

实验数据：

使用 DreamFusion 提供的 404 个去重文本提示集，包括物体、角色和复杂组合场景。

对比设计

对比模型包括以下五个：

CSM Cube 2.0 (CSM, 2024)
Tripo3D (TripoAI, 2024)
Rodin Gen-1 (0525) V0.5 (Deemos, 2024)
Meshy v3 (Meshy, 2024a)
第三方文本到3D生成器 (T23D)

对比指标：

生成时间：每个模型在生成 3D 资产和纹理优化上的时间。
提示忠实度：生成的 3D 资产与输入文本提示的一致程度。
视觉质量：由用户和专业 3D 艺术家对生成资产的总体视觉质量、几何细节和纹理细节的评价。

实验结果

生成时间：

提示忠实度（用户研究结果）：

视觉质量（用户和专业 3D 艺术家评价）：

质性结果：

阶段 I 和阶段 II 的视觉对比：

阶段 II 生成的 3D 资产在视觉美感、细节和逼真度方面优于阶段 I。
用户更倾向于选择阶段 II 生成的结果，胜率为 68%。

与行业基准的视觉对比：

简单场景：各模型表现相近。
复杂组合场景：Meta 3DGen 明显优于其他模型，尤其是在生成高频细节和避免视觉伪影方面。

常见失败模式：

CSM Cube 2.0：图像分割失败、不完整几何、部分纹理问题。
Rodin Gen-1：提示忠实度较低、几何伪影、纹理和形状细节不足。
Meshy v3：几何伪影、纹理不一致、细节不足。
Meta 3DGen：少数情况下几何不完整或破碎、纹理接缝问题。

我们可以看到，Meta 3DGen 在生成速度、提示忠实度和视觉质量方面显著优于多个行业标准模型，尤其是在处理复杂提示时表现突出。通过综合使用视图空间和 UV 空间的生成方法，以及高效的纹理优化技术，Meta 3DGen 能够在短时间内生成高质量的 3D 资产，适用于游戏开发、虚拟现实和电影特效等多种应用场景。

表 1：行业基准的生成能力和运行时间对比

此表展示了不同文本到 3D 生成模型在生成能力和运行时间方面的对比。Meta 3DGen 在生成时间上显著快于大多数其他模型，并且在支持 PBR 材料的情况下，提供了高质量的生成结果。

表 2：用户研究结果 - 提示忠实度

这张表显示了在提示忠实度方面，Meta 3DGen 在阶段 I 和阶段 II 都表现出色，特别是在阶段 II 中，比其他模型有更高的提示忠实度。

表 3：用户研究结果 - 总结 A/B 测试

在这个表中，Meta 3DGen 在提示忠实度、质量、纹理和几何方面都表现优于其他模型，特别是在全体评价者中，胜率更高。

Meta 3DGen 在生成速度、提示忠实度和视觉质量方面均表现优异，特别是在处理复杂提示时表现突出。通过对多个行业基准的对比，Meta 3DGen 展现了其在 3D 资产生成领域的显著优势。

核心应用场景

Meta 3DGen 提供了高效且高质量的文本到 3D 生成解决方案，其核心应用场景包括但不限于以下几个方面：

视频游戏开发：在视频游戏中，3D 资产的创建是一个耗时且昂贵的过程。Meta 3DGen 能够快速生成高质量的游戏角色、道具和场景，极大地缩短了开发周期。优势：支持基于物理的渲染（PBR），生成的3D资产可以在不同光照条件下保持真实感，提高了游戏的视觉效果和沉浸感。
虚拟现实 (VR) 和增强现实 (AR) 应用：在 VR 和 AR 应用中，需要大量的高质量 3D 内容来创建逼真的虚拟环境和互动体验。Meta 3DGen 可以根据文本描述快速生成这些 3D 内容。优势：高效的生成速度和高保真的3D资产质量，使其能够满足VR和AR应用对实时性和视觉质量的高要求。
电影和电视特效：电影和电视制作中，经常需要创建复杂的 3D 特效和动画。Meta 3DGen 能够根据导演或特效团队的描述，快速生成所需的 3D 资产，支持后期制作和特效设计。优势：支持纹理优化和高频细节生成，确保生成的3D资产在大屏幕上也能保持高质量的视觉效果。
电子商务和产品展示：电子商务网站和虚拟展厅需要展示产品的 3D 模型，以便客户能够全方位查看产品细节。Meta 3DGen 可以快速生成产品的 3D 模型和纹理。优势：生成的3D产品模型可以在不同视角和光照下展示，提高了客户的购物体验和购买决策的便捷性。
建筑和室内设计：在建筑和室内设计中，需要创建建筑物和室内空间的 3D 模型。Meta 3DGen 可以根据文本描述生成这些模型，辅助设计师进行设计和展示。优势：支持高质量的纹理生成和材质映射，生成的3D模型可以用于设计评审、客户演示和虚拟漫游等场景。
教育和培训：教育和培训中，经常需要创建各种 3D 模型用于教学和模拟训练。Meta 3DGen 能够快速生成所需的教学和训练3D模型。优势：支持多样化的文本描述和高效的生成速度，可以满足不同学科和培训场景的需求，提升教学效果和培训效率。
艺术创作和数字内容创作：艺术家和数字内容创作者可以使用 Meta 3DGen 根据自己的创意和描述生成 3D 艺术作品和数字内容。优势：提供了高质量的生成结果和灵活的纹理优化功能，支持艺术家在虚拟空间中进行创作和展示。

Meta 3DGen 在多个应用场景中展现了其强大的生成能力和高效的性能。通过快速生成高质量的3D资产，它能够显著提升各个领域的工作效率和成果质量，特别是在需要大量3D内容的行业中，其应用潜力巨大。

http://mp.weixin.qq.com/s?__biz=MzU4NDEwNTAyNQ==&mid=2247484097&idx=1&sn=e988884375c4d327f28b85a88ec4926d

贝叶斯之美

AI博士，探奇点时刻，抓时代康波，掘伟大公司，AI让我自由