腾讯发布HunYuan-3D,支持文本到3D和图像到3D,10秒即可生成高分辨率细3D模型。

文摘   2024-12-06 00:02   江苏  


HunYuan-3D支持文本到3D和图像到3D功能,包括网格和纹理提取在内,整个过程在 10 秒内完成。

  • 文本到 3D:用户可以通过简单的文本描述生成 3D 对象。例如,描述一片绿叶或一把棕色吉他,模型将生成对应的 3D 物体。

  • 图像到 3D:支持多种尺度的物体重建,从大型建筑到小型工具和植物都能准确生成。

相关链接

代码:https://github.com/tencent/Hunyuan3D-1

模型下载:https://huggingface.co/tencent/Hunyuan3D-1

试用:https://huggingface.co/spaces/Tencent/Hunyuan3D-1

论文阅读

方法概述

虽然 3D 生成模型极大地改善了艺术家的工作流程,但现有的 3D 生成扩散模型存在生成速度慢、泛化能力差的问题。为了解决这个问题,论文提出了一种名为 Hunyuan3D-1.0 的两阶段方法,包括一个精简版和一个标准版,均支持文本和图像条件生成。

在第一阶段,采用多视图扩散模型,该模型可在约 4 秒内高效生成多视图 RGB。这些多视图图像从不同视角捕捉 3D 资产的丰富细节,将任务从单视图简化为多视图重建。在第二阶段,引入了前馈重建模型,该模型可在约 7 秒内根据生成的多视图图像快速、忠实地重建 3D 资产。重建网络学习处理多视图扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复 3D 结构。

框架涉及文本转图像模型,即 Hunyuan-DiT,使其成为一个统一的框架,支持文本和图像条件的 3D 生成。标准版本比精简版和其他现有模型多 3 倍参数。Hunyuan3D-1.0 在速度和质量之间实现了令人印象深刻的平衡,显著缩短了生成时间,同时保持了所生成资产的质量和多样性。

方法架构

对 Hunyuan3D-1.0 与其他开源 3D 生成方法进行了评估,我们的 Hunyuan3D-1.0 在 5 个指标中获得了最高的用户偏好。

精简模型在 NVIDIA A100 GPU 上从单幅图像生成 3D 网格大约需要 10 秒,而标准模型大约需要 25 秒。右下角的图表显示 Hunyuan3D-1.0 在质量和效率之间实现了最佳平衡。

实验效果

单视图生成的定性比较。与现有方法相比,hunyuan 3d -1.0实现了更好的视觉质量。

结论

Hunyuan3D-1.0是一个能够创建高质量 3D 形状的两阶段 3D 生成流程。该流程由一个多视图生成模型组成,该模型可生成富含纹理和几何细节的多视图图像,以及一个前馈稀疏视图重建模型,该模型使用显式表示恢复底层 3D 形状。结合了几种创新设计来提高 3D 生成过程的速度和质量,包括自适应无分类器指导以平衡多视图扩散的可控性和多样性、混合输入以解决看不见的部分重建,以及轻量级超分辨率模块以增强细节的表示。对基准任务的广泛评估表明,Hunyuan3D-1.0 在 3D 生成方面实现了最先进的性能。该方法始终优于现有方法,凸显了其在解决 3D 生成固有挑战方面的有效性。这些结果验证了提出的流程的稳健性和效率,为 3D 生成社区做出了重大贡献。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章