腾讯发布HunYuan-3D,支持文本到3D和图像到3D,10秒即可生成高分辨率细3D模型

文摘   2024-11-14 07:00   上海  

作者 | AIGC Studio  编辑 | AIGC Studio

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

HunYuan-3D支持文本到3D和图像到3D功能,包括网格和纹理提取在内,整个过程在 10 秒内完成。

  • 文本到 3D:用户可以通过简单的文本描述生成 3D 对象。例如,描述一片绿叶或一把棕色吉他,模型将生成对应的 3D 物体。

  • 图像到 3D:支持多种尺度的物体重建,从大型建筑到小型工具和植物都能准确生成。

相关链接

代码:https://github.com/tencent/Hunyuan3D-1

模型下载:https://huggingface.co/tencent/Hunyuan3D-1

试用:https://huggingface.co/spaces/Tencent/Hunyuan3D-1

论文阅读

方法概述

虽然 3D 生成模型极大地改善了艺术家的工作流程,但现有的 3D 生成扩散模型存在生成速度慢、泛化能力差的问题。为了解决这个问题,论文提出了一种名为 Hunyuan3D-1.0 的两阶段方法,包括一个精简版和一个标准版,均支持文本和图像条件生成。

在第一阶段,采用多视图扩散模型,该模型可在约 4 秒内高效生成多视图 RGB。这些多视图图像从不同视角捕捉 3D 资产的丰富细节,将任务从单视图简化为多视图重建。在第二阶段,引入了前馈重建模型,该模型可在约 7 秒内根据生成的多视图图像快速、忠实地重建 3D 资产。重建网络学习处理多视图扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复 3D 结构。

框架涉及文本转图像模型,即 Hunyuan-DiT,使其成为一个统一的框架,支持文本和图像条件的 3D 生成。标准版本比精简版和其他现有模型多 3 倍参数。Hunyuan3D-1.0 在速度和质量之间实现了令人印象深刻的平衡,显著缩短了生成时间,同时保持了所生成资产的质量和多样性。

方法架构

对 Hunyuan3D-1.0 与其他开源 3D 生成方法进行了评估,我们的 Hunyuan3D-1.0 在 5 个指标中获得了最高的用户偏好。

精简模型在 NVIDIA A100 GPU 上从单幅图像生成 3D 网格大约需要 10 秒,而标准模型大约需要 25 秒。右下角的图表显示 Hunyuan3D-1.0 在质量和效率之间实现了最佳平衡。

实验效果

单视图生成的定性比较。与现有方法相比,hunyuan 3d -1.0实现了更好的视觉质量。

结论

Hunyuan3D-1.0是一个能够创建高质量 3D 形状的两阶段 3D 生成流程。该流程由一个多视图生成模型组成,该模型可生成富含纹理和几何细节的多视图图像,以及一个前馈稀疏视图重建模型,该模型使用显式表示恢复底层 3D 形状。结合了几种创新设计来提高 3D 生成过程的速度和质量,包括自适应无分类器指导以平衡多视图扩散的可控性和多样性、混合输入以解决看不见的部分重建,以及轻量级超分辨率模块以增强细节的表示。对基准任务的广泛评估表明,Hunyuan3D-1.0 在 3D 生成方面实现了最先进的性能。该方法始终优于现有方法,凸显了其在解决 3D 生成固有挑战方面的有效性。这些结果验证了提出的流程的稳健性和效率,为 3D 生成社区做出了重大贡献。


【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章