腾讯混元视频:虚实完美融合创意无极限!
🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !本人仅运营公众号平台,未经授权严禁CSDN等其他平台抄袭和转载!
HunyuanVideo简介
近日腾讯开源了当前模型参数最大的文生视频模型:混元视频(HunyuanVideo)。这是当前一款开源模型中性能最强、超越商业闭源模型的一款包含130亿参数。凭借百亿级别大参数,HunyuanVideo 能够生成具有高物理准确性和场景一致性的视频,从而实现概念视觉化和促进创意表达。包含:
• 卓越画质:呈现超写实的视觉体验,在真实与虚拟风格之间自由转换
• 动态流畅:突破动态图像的局限,完美呈现每个动作的流畅与连贯
• 连续动作:丰富语意表达,顺序动作一次完成
• 艺术镜头:打破单一运镜,导演级运镜无缝衔接
• 概念泛化:用最真实的效果,展现最梦幻的场景
• 物理遵从:运动符合物理定律,自然而不违和
HunyuanVideo 是一款腾讯的突破性的视频生成模型,能够带来影视级画质体验,并具备原生切镜能力,可在真实与虚拟风格之间自由切换。拥有强大的语义对齐能力,能够生成高动态、流畅的运动画面,并一次性完成多个连续动作。模型具备导演级运镜能力,实现艺术镜头的无缝衔接,完美融合真实效果与虚拟场景。同时,HunyuanVideo 遵循物理定律,大幅降低违和感。通过原生切镜和连续动作的设计,用户只需简单指令即可完成流畅创作,激发无限创意与灵感,充分展现东方文化的独特魅力。
架构方案
HunyuanVideo是一个系统化的大型视频生成模型训练框架,它通过集成数据整理、图像-视频联合模型训练和高效的基础设施来支持大规模模型训练和推理。该框架采用了统一的图视频生成架构,结合了MLLM文本编码器、3D VAE 和Prompt改写技术,以实现高质量的视觉效果、多样的运动、文本-视频对齐和生成稳定性,从而生成与领域闭源模型相媲美甚至更优的视频内容。
性能评估
研发团队选择了四个闭源视频生成模型作为对比。总共使用了 1,533 个 prompt ,每个 prompt 通过一次推理生成了相同数量的视频样本。为了公平比较,只进行了一次推理以避免任何挑选和保持了所有选择模型的默认设置,并确保了视频分辨率的一致性。视频根据三个标准进行评估:文本对齐、运动质量和视觉质量。在 60 多名专业评估人员评估后,HunyuanVideo 在综合指标上表现最好,特别是在运动质量方面表现较为突出。
• github:https://github.com/Tencent/HunyuanVideo
• huggingface:https://huggingface.co/tencent/HunyuanVideo
• 项目主页:https://aivideo.hunyuan.tencent.com/
演示案例
01.原生切镜 丝滑转场
远景镜头:骆驼商队在无尽的金色沙丘间蜿蜒前行,如同在大地上游动的长蛇。落日将沙漠染成深橙色,天空呈现出渐变的紫红。特写镜头:年迈向导布满皱纹的手指捻起一把细沙,任其随风飘散。他的头巾在风中轻扬,饱经风霜的脸上映着落日的余晖,眼神沉稳而睿智。电影级细节表现。
02.连续动作 流畅自然
在健身房里,一位穿着运动服的女性在跑步机上跑步。侧面角度,写实风格,室内灯光,专业拍摄。
03.国风创作 东方文化
一个敦煌雕塑风格的神仙,身材曼妙,弹着琵琶,在博物馆中轻盈起舞,衣袂飘飘。
04.声控魔力,语音驱动
HunyuanVideo ComfyUI体验
当前社区 @kijai大佬已发布最新的ComfyUI-HunyuanVideoWrapper ComfyUI插件支持。
• ComfyUI-HunyuanVideoWrapper:需要通过管理器安装,地址:https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
• hunyuan_video_720_fp8_e4m3fn.safetensors:下载模型并放置ComfyUI/models/unet目录。下载地址:https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hunyuan_video_720_fp8_e4m3fn.safetensors?download=true
• hunyuan_video_vae_bf16.safetensors:下载模型并放置ComfyUI/models/vae目录。下载地址:https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hunyuan_video_vae_bf16.safetensors?download=true
• llava-llama-3-8b-text-encoder-tokenizer:全部项目文件下载模型并放置ComfyUI/models/LLM/llava-llama-3-8b-text-encoder-tokenizer目录。下载地址:https://huggingface.co/Kijai/llava-llama-3-8b-text-encoder-tokenizer/tree/main
• openai/clip-vit-large-patch14:下载模型并放置ComfyUI/models/clip/clip-vit-large-patch14目录(文档写的仅下载model.safetensors文件,实际测试需要下载整个项目,可能还在改善中)。下载地址:https://huggingface.co/openai/clip-vit-large-patch14/tree/main
• 注意:原生的HunyuanVideo需要至少45G的显存运行,因此本文选择fp8的量化版本。尽管如此如此,显存的使用完全取决于分辨率和帧数,即使在24GB的GPU上也没法处理很高的分辨率和帧数。但幸好,HunyuanVideo在即使较低的分辨率下,模型也能生成功能正常的视频。
原生模型GPU要求:感谢@kijai大佬的量化FP8模型,使得16G显存也可以开始体验。
安装指南:
Flux文生图工作流
• F.1-绮梦流光-水湄凝香:
https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b
HunyuanVideo工作流
• 在线体验地址:腾讯元宝注册链接https://yuanbao.tencent.com/bot/app/share/chat/HKDTKRA/videoTrafficDiversion • attention model:默认选项为flash_attn或sgeattn,spda 当前还不工作。 • 本地480*720分辨率24G耗时大约2分钟,如下图所示。
01.健身(ComfyUI)
在健身房里,一位穿着红色紧身运动服的年轻女性在跑步机上跑步。侧面角度,写实风格,室内灯光,专业拍摄。
02.烧烤(ComfyUI)
极端特写的鸡肉和青椒串烤烤架上的火焰。浅焦点和轻烟。生动的颜色
03. 麻婆豆腐(Web)
一个慢镜头,厨师在厨房里把香料洒在咝咝作响的锅里,并将美味的川味麻婆豆腐盛放到桌上盘子中。摄像机捕捉到了蒸汽和香气。
04.健身(Web)
极端特写的鸡肉和青椒串烤烤架上的火焰。浅焦点和轻烟。生动的颜色
05.肚皮舞(Web)
远景镜头:一群20多年的亚洲学生在沙滩边游玩,烧烤。特写镜头:1个20岁的女人在海边欢乐跳着肚皮舞,镜头从下身到上身的镜头移动
06.镜头切换(Web)
远景镜头:一群20多年的中国学生在沙滩边游玩,烧烤。特写镜头:1个20岁的中国女人在海边欢乐跳着肚皮舞,身穿着红色露肩长裙,镜头从女人下到上的镜头移动
如果觉得文章不错,就请赞、在看与转发三连