腾讯Hunyuan3D:仅需10秒生成3D视图,首个同时支持文字和图像生成3D开源模型,3D游戏|影视|电商|虚拟现实

科技   2024-11-17 18:27   四川  

腾讯Hunyuan3D:仅需10秒生成3D视图,首个同时支持文字和图像生成3D开源模型,3D游戏|影视|电商|虚拟现实

🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !本人仅运营公众号平台,未经授权严禁CSDN等其他平台抄袭和转载!

Hunyuan3D-1.0简介

近日国内大厂腾讯开源了最新首个同时集成文生和图生的3D开源模型Hunyuan3D-1.0,该框架是一个统一的框架,可以被应用于文本到3D图像到3D的生成。框架包含轻量版和标准版两个版本,都支持文本和图像条件的3D生成。

同时框架采用了2阶段生产方法:

  • • 在保证质量和可控的基础上,仅需10秒即可生成3D物体。在第一阶段,采用了一种多视角扩散模型,轻量版模型能够在大约4秒内高效生成多视角图像。

  • • 这些多视角图像从不同的视角捕捉了3D资产的丰富的纹理和几何先验,将任务从单视角重建松弛到多视角重建。在第二阶段,引入了一种前馈重建模型,利用上一阶段生成的多视角图像。

因此Hunyuan3D-1.0模型能够在大约3秒内快速而准确地重建3D视图。重建模型学习处理多视角扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复3D结构。最终,该模型可以实现输入任意单视角实现三维生成。模型能够被广泛应用于游戏开发、电影动画、电子商务以及虚拟现实/增强现实领域等广泛的应用场景。

  • • Github:https://github.com/Tencent/Hunyuan3D-1

  • • 项目主页:https://3d.hunyuan.tencent.com/

  • • huggingface:https://huggingface.co/tencent/Hunyuan3D-1

  • • 技术论文:https://3d.hunyuan.tencent.com/hunyuan3d.pdf

性能评估

腾讯Hunyuan3D-1.0在与其它开源3D生成方法的性能评估中表现出色,获得了最高的用户偏好评分。具体来说,Hunyuan3D-1.0的轻量版能够在大约10秒内使用NVIDIA A100 GPU从单一图像生成3D网格,而标准版则需要大约25秒。评估结果显示,Hunyuan3D-1.0在质量和效率之间取得了优异的平衡,如下图所示:

官方演示

Hunyuan3D-1.0体验

当前Hunyuan3D-1.0仅可以通过WebUI源码部署、ComfyUI、在线Demo体验,具体参见项目Github。由于ComfyUI插件涉及ComfyUI-3D-Pack插件安装,这是对本地环境要求和影响比较大的插件,插件作者也建议采用全新Conda环境安装,本文就详细叙述,具体参见ComfyUI文档。

  • 項目主頁https://github.com/Tencent/Hunyuan3D-1

  • ComfyUI插件:https://github.com/jtydhr88/ComfyUI-Hunyuan3D-1-wrapper/blob/master/README_zh_CN.md

  • 在线体验地址:https://huggingface.co/spaces/tencent/Hunyuan3D-1

Flux文生图工作流

Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流:FLUX[续篇]:12B参数23G最大开源文生图模型,Dev版直出惊艳美图欣赏

Flux模型涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验:
• FLUX.1哩布在线可运行-黑暗森林工作室
https://www.liblib.art/modelinfo/488cd9d58cd4421b9e8000373d7da123
• F.1-绮梦流光-水湄凝香
https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b
• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流
https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8

另外LIBLIBAI已支持本地客户端使用可首页(https://www.liblib.art/)可下载体验。

WebUI展示工作流

Hunyuan3D-1.0工作流

ComfyUI工作流安装视图ComfyUI-Hunyuan3D-1-wrapper插件。

01.熊猫

一只黑白相间的熊猫在白色背景上居中坐着,呈现出卡通风格和可爱氛围。

透明背景图:

多面视图:

3D效果:

02.兔子

一只粉红色的拟人化兔子,站在白色背景前。照片采用居中构图方式,卡通风格

透明背景图:

多面视图:

3D效果:

03.人物

一个亚洲女人穿着红色连衣裙站在房间中间,居中,写实

透明背景图:

多面视图:

3D效果:

Hunyuan3D-1.0作为开源文生3D视图模型进一步推进社区的3D模型里程碑。更成熟Tripo商业方法可参考Tripo来袭:优秀文生3D模型,极速3D生成,效果优于zero123,ComfyUI指南

更多推荐文章:

• PromptGenV2:仅1G低显存福音!更适合F1的CLIP和T5双通道反推!接近Joy性能与速率平衡反推

 15秒F.1D直出,极限无损加速方案,环境大升级敢不敢来试?

• 更像了!5个百分点提升,字节写真换脸PuLID-F1再升级,小红书流量密码

• OmniGen:统一图像生成和多任务集成模型,任意人物自由合影,8位量化体验

 Shuttle-3-Diffusion:可商用F.1去蒸馏模型!仅4步约3秒出图,性能质量显著提升

 Mochi1:更简单和可商用,ComfyUI内核支持,社区生态推动4张H100到消费级显卡可用

 CogVideo:重磅升级!图生视频完美镜头控制和3D环绕,商用级开源AI视频曙光

• 阿里InContextLoRA:更强ID一致性!基于黑森林F1身份一致性连贯视频分镜图集,10组风格无限创意

• Flux-NewReality:栩栩如生摄影级解禁模型,追求真实细节&风景&神话高品质艺术

• [ComfyUI]InstantIR:来自小红书团队模糊图像修复技术,效果是否惊艳?

• [ComfyUI]Flux:F.1多区域精确控图,无需LORA技术多区域自由构图工具

• [ComfyUI]MochiEdit:最新视频编辑工具,Mochi视频生成加速方案

    感兴趣加入[AGI技术交流群]+V

    如果觉得文章不错,就请在看转发三连

破狼
关注AIGC、LLM、绘图作品、软件工程、技术学习。交流+V:shunshizhiwu。
 最新文章