近日,腾讯混元正式开源了其最新的Hunyuan3D-1.0大模型。这一消息在AI和3D领域引起了广泛关注。据官方介绍,Hunyuan3D-1.0是首个同时支持文本生成(文生)和图像生成(图生)的3D开源大模型,这一创新性功能使其在业界独树一帜。
Hunyuan3D-1.0不仅支持从文本描述生成3D资产,还支持从图像生成3D资产,这种双重能力在业界尚属首次。模型采用多视图生成和多视图重建两阶段生成方法。第一阶段利用多视角扩散模型生成多视角图像,第二阶段则利用前馈重建模型根据这些图像快速准确地恢复3D结构。
Hunyuan3D-1.0 Gitee 仓库地址:https://gitee.com/Tencent/Hunyuan3D-1
据官方数据显示,用户仅需约10秒(轻量版A100 GPU上)即可获得高质量的3D资产,其中第一阶段生成多视角图像约需4秒,第二阶段重建3D结构约需3秒。
Hunyuan3D-1.0具有强大的泛化能力和可控性,能够重建各类不同尺度的物体,从大型建筑物到精细的工具、花草等。在第一阶段,模型使用多视角扩散模型在固定相机视角下合成多个新视角图像,这些图像从不同角度捕捉了3D资产的丰富纹理和几何先验。在第二阶段,模型利用前一阶段生成的多视角图像,通过前馈重建模型学习处理多视角扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复3D结构。
多视图生成采用了自适应CFG(classifer-free guidance),为不同视角和time steps设置不同的CFG尺度值,以保证生成控制更强和生成图像的真实性。
Hunyuan3D-1.0还采用了Signed distance function(SDF)的隐式表示,最后通过Marching cube算法在三维空间进行采样查询得到signed distance来输出3D mesh。设计师可以利用Hunyuan3D-1.0快速生成复杂的3D环境和角色,提升游戏的视觉效果与用户体验。建筑师可以利用该模型快速生成建筑模型,进行设计和规划。在影视创作中,快速生成高质量的3D资产能够显著缩短制作周期,降低成本。用户还可以基于个人喜好和需求,创作个性化的3D资产,如3D导航车标、3D角色等。
Hunyuan3D-1.0的模型权重、推理代码、模型算法等已全部开源,用户可以在HuggingFace、Github等技术社区直接下载,免费可商用。腾讯鼓励开发者在此基础上进行二次开发,探索新的应用场景和商业模式。
随着AI生成内容技术的普及,版权问题、数据安全和滥用的风险等问题逐渐凸显,需要行业规范和用户自律来共同应对。未来,Hunyuan3D-1.0有望在更多领域得到应用和推广,如虚拟现实(VR)、增强现实(AR)等。同时,随着技术的不断进步和完善,期待该模型能够为更多行业带来创新和变革。
生成效果展示
文生模型
图生模型
文章来源:公众号 蜂耘网、Gitee,版权归原媒体/刊载网站所有。
原文题目:Hunyuan3D-1.0来了!腾讯混元首个文生图生双能3D大模型亮相;国内首发!腾讯混元两大核心模型在 Gitee 正式开源
本公众号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请后台留言,我们会及时修改或删除。感谢您的关注与支持!
GIS圈运营团队