[ComfyUI]腾讯混元视频：虚实完美融合创意无极限！130亿大杯&影视级画质&导演级运镜&原生切镜&遵循物理运动&连续动作

科技 2024-12-05 18:05 浙江

腾讯混元视频：虚实完美融合创意无极限！

🌹大家好！欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上，我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群！本人仅运营公众号平台，未经授权严禁CSDN等其他平台抄袭和转载！

HunyuanVideo简介

近日腾讯开源了当前模型参数最大的文生视频模型：混元视频（HunyuanVideo）。这是当前一款开源模型中性能最强、超越商业闭源模型的一款包含130亿参数。凭借百亿级别大参数，HunyuanVideo 能够生成具有高物理准确性和场景一致性的视频，从而实现概念视觉化和促进创意表达。包含：

• 卓越画质：呈现超写实的视觉体验，在真实与虚拟风格之间自由转换
• 动态流畅：突破动态图像的局限，完美呈现每个动作的流畅与连贯
• 连续动作：丰富语意表达，顺序动作一次完成
• 艺术镜头：打破单一运镜，导演级运镜无缝衔接
• 概念泛化：用最真实的效果，展现最梦幻的场景
• 物理遵从：运动符合物理定律，自然而不违和

HunyuanVideo 是一款腾讯的突破性的视频生成模型，能够带来影视级画质体验，并具备原生切镜能力，可在真实与虚拟风格之间自由切换。拥有强大的语义对齐能力，能够生成高动态、流畅的运动画面，并一次性完成多个连续动作。模型具备导演级运镜能力，实现艺术镜头的无缝衔接，完美融合真实效果与虚拟场景。同时，HunyuanVideo 遵循物理定律，大幅降低违和感。通过原生切镜和连续动作的设计，用户只需简单指令即可完成流畅创作，激发无限创意与灵感，充分展现东方文化的独特魅力。

架构方案

HunyuanVideo是一个系统化的大型视频生成模型训练框架，它通过集成数据整理、图像-视频联合模型训练和高效的基础设施来支持大规模模型训练和推理。该框架采用了统一的图视频生成架构，结合了MLLM文本编码器、3D VAE 和Prompt改写技术，以实现高质量的视觉效果、多样的运动、文本-视频对齐和生成稳定性，从而生成与领域闭源模型相媲美甚至更优的视频内容。

性能评估

研发团队选择了四个闭源视频生成模型作为对比。总共使用了 1,533 个 prompt ，每个 prompt 通过一次推理生成了相同数量的视频样本。为了公平比较，只进行了一次推理以避免任何挑选和保持了所有选择模型的默认设置，并确保了视频分辨率的一致性。视频根据三个标准进行评估：文本对齐、运动质量和视觉质量。在 60 多名专业评估人员评估后，HunyuanVideo 在综合指标上表现最好，特别是在运动质量方面表现较为突出。

• github：https://github.com/Tencent/HunyuanVideo
• huggingface：https://huggingface.co/tencent/HunyuanVideo
• 项目主页：https://aivideo.hunyuan.tencent.com/

演示案例

01.原生切镜丝滑转场

自然衔接的场景切换，打造电影级叙事

远景镜头：骆驼商队在无尽的金色沙丘间蜿蜒前行，如同在大地上游动的长蛇。落日将沙漠染成深橙色，天空呈现出渐变的紫红。特写镜头：年迈向导布满皱纹的手指捻起一把细沙，任其随风飘散。他的头巾在风中轻扬，饱经风霜的脸上映着落日的余晖，眼神沉稳而睿智。电影级细节表现。

02.连续动作流畅自然

连续动作一气呵成，呈现自然流动之美

在健身房里，一位穿着运动服的女性在跑步机上跑步。侧面角度，写实风格，室内灯光，专业拍摄。

03.国风创作东方文化

中国传统美学的数字新生

一个敦煌雕塑风格的神仙，身材曼妙，弹着琵琶，在博物馆中轻盈起舞，衣袂飘飘。

04.声控魔力，语音驱动

更多演示案例参考官方主页：https://aivideo.hunyuan.tencent.com/

HunyuanVideo ComfyUI体验

当前社区 @kijai大佬已发布最新的ComfyUI-HunyuanVideoWrapper ComfyUI插件支持。

• ComfyUI-HunyuanVideoWrapper：需要通过管理器安装，地址：https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
• hunyuan_video_720_fp8_e4m3fn.safetensors：下载模型并放置ComfyUI/models/unet目录。下载地址：https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hunyuan_video_720_fp8_e4m3fn.safetensors?download=true
• hunyuan_video_vae_bf16.safetensors：下载模型并放置ComfyUI/models/vae目录。下载地址：https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hunyuan_video_vae_bf16.safetensors?download=true
• llava-llama-3-8b-text-encoder-tokenizer：全部项目文件下载模型并放置ComfyUI/models/LLM/llava-llama-3-8b-text-encoder-tokenizer目录。下载地址：https://huggingface.co/Kijai/llava-llama-3-8b-text-encoder-tokenizer/tree/main
• openai/clip-vit-large-patch14：下载模型并放置ComfyUI/models/clip/clip-vit-large-patch14目录（文档写的仅下载model.safetensors文件，实际测试需要下载整个项目，可能还在改善中）。下载地址：https://huggingface.co/openai/clip-vit-large-patch14/tree/main
• 注意：原生的HunyuanVideo需要至少45G的显存运行，因此本文选择fp8的量化版本。尽管如此如此，显存的使用完全取决于分辨率和帧数，即使在24GB的GPU上也没法处理很高的分辨率和帧数。但幸好，HunyuanVideo在即使较低的分辨率下，模型也能生成功能正常的视频。

原生模型GPU要求：感谢@kijai大佬的量化FP8模型，使得16G显存也可以开始体验。

安装指南：

Flux文生图工作流

Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流：FLUX[续篇]：12B参数23G最大开源文生图模型，Dev版直出惊艳美图欣赏

本文涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验：

• F.1-绮梦流光-水湄凝香：

https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b

• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流：

https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8

HunyuanVideo工作流

HunyuanVideo工作流已上传LIBLIB平台：

https://www.liblib.art/modelinfo/433fbf0bd2a8484d8e32d9e32258f378?versionUuid=38e240f99c554f5da4a61d3c05cbdcfb

另外，也可以使用在线Web或者元宝APP体验视频生成。

注意：

• 在线体验地址：腾讯元宝注册链接https://yuanbao.tencent.com/bot/app/share/chat/HKDTKRA/videoTrafficDiversion
• attention model：默认选项为flash_attn或sgeattn，spda 当前还不工作。
• 本地480*720分辨率24G耗时大约2分钟，如下图所示。

01.健身(ComfyUI)

在健身房里，一位穿着红色紧身运动服的年轻女性在跑步机上跑步。侧面角度，写实风格，室内灯光，专业拍摄。

02.烧烤(ComfyUI)

极端特写的鸡肉和青椒串烤烤架上的火焰。浅焦点和轻烟。生动的颜色

03. 麻婆豆腐(Web)

一个慢镜头，厨师在厨房里把香料洒在咝咝作响的锅里，并将美味的川味麻婆豆腐盛放到桌上盘子中。摄像机捕捉到了蒸汽和香气。

04.健身(Web)

极端特写的鸡肉和青椒串烤烤架上的火焰。浅焦点和轻烟。生动的颜色

05.肚皮舞(Web)

远景镜头：一群20多年的亚洲学生在沙滩边游玩，烧烤。特写镜头：1个20岁的女人在海边欢乐跳着肚皮舞，镜头从下身到上身的镜头移动

06.镜头切换(Web)

远景镜头：一群20多年的中国学生在沙滩边游玩，烧烤。特写镜头：1个20岁的中国女人在海边欢乐跳着肚皮舞，身穿着红色露肩长裙，镜头从女人下到上的镜头移动

• DistyFlow：与众不同的工作流体验！降低入门难度，快捷高效全新体验，不容错过高效利器

• IC-Light V2-Vary：打光模型重大升级，具有更强的光照变化，适用商用产品&摄影打光

• [ComfyUI]Flux：Lovely网红写真，极致细节写实，小红书网红人物写真风格

• [ComfyUI]CATVTON-Flux:电商虚拟换衣！基于黑森林F1重绘和阿里InContextLORA电商服装一致性

• [ComfyUI]RecraftAI：霸榜&比F1更真实的小红书写实风格模型！小熊猫无缝接入工作流

• Lumiere：细节真实！专注更真实保持无损原生提示遵循和构图模型

• 智谱CogVideoX1.5：重大升级，可商用开源模型！10秒&增强质量&任意分辨率

感兴趣加入[AGI技术交流群]+V

如果觉得文章不错，就请赞、在看与转发三连

破狼

关注AIGC、LLM、绘图作品、软件工程、技术学习。交流+V：shunshizhiwu。

最新文章

[ComfyUI]Flux：圣诞主题皮肤！小红书照片最强网感时尚穿搭

[ComfyUI]FastVideo：混元官方点赞，6步8倍轻量级加速模型！腾讯混元视频模型一致性蒸馏技术

腾讯混元视频：ComfyUI官方原生支持！GGUF量化低显存福音！开源生态高速发展

[ComfyUI]MagicQuill：无需PS全功能P图编辑工具！8G可运行，最全避坑指南

[ComfyUI]如意：智驾企业下场搞开源视频模型！7B图生视频&首尾帧&任意宽高比&增强运动与相机控制

[ComfyUI]MEMO：让静止图片活起来！音唇同步&丰富且自然表情的对话视频生成技术

[ComfyUI]腾讯混元视频：运动镜头控制！行走动画LORA，最强开源视频可控性里程碑

[ComfyUI]OminiControl：Flux全能P图神器！乾坤大挪移&重绘&CN控制，极简全能控制器

[ComfyUI]腾讯混元视频：开源LORA生态来啦！视频人物一致性&运镜可控性里程碑，支持NSFW

[ComfyUI]ZenID：面部融合神器！揭秘基因遗传，提前预测你和她的下一代基因

ComfyUI原生精确多区域控制！官方最新LoRA和模型权重的遮罩和调度方法

腾讯混元视频:视频写真换脸,请合理使用！工作流一键视频写真,最强导演级&虚拟与现实完美融合开源视频模型

[ComfyUI]Flux：极致光影！F1复古胶片摄影写实，模拟胶片极致色彩&光影&颗粒感

[ComfyUI]Flux：MJ艺术风！基于黑森林F1的Midjourney风，光效&写实&建模&演示&特写镜头

Shuttle 3.1 Aesthetic：低显存福音！S3D升级写实提升，4步秒级出图可商用，ComfyUI体验

[ComfyUI]腾讯混元视频：v2v视频驱动，最强开源视频模型，影视级画质与导演级运镜，本地16G可体验

[ComfyUI]AWPortraitCN：更真实质感细腻！专门针对国人外貌和审美优化F1模型

[ComfyUI]腾讯混元视频：虚实完美融合创意无极限！130亿大杯&影视级画质&导演级运镜&原生切镜&遵循物理运动&连续动作

DistyFlow：与众不同的工作流体验！降低入门难度，快捷高效全新体验，不容错过高效利器

[ComfyUI]Flux：国潮经典！敦煌古韵与现代极简国潮插画，敦煌风十二生肖和邮票集锦

[ComfyUI]CATVTON-Flux:电商虚拟换衣！基于黑森林F1重绘和阿里In Context LORA电商服装一致性

写实效果炸裂！疑似AI概率最低仅1%，轻松通过AI检测适用小红书日常写实模型，无缝接入ComfyUI自动化设计流程

[ComfyUI]RecraftAI：霸榜&比F1更真实的小红书写实风格模型！小熊猫无缝接入工作流自动化设计流程

IC-Light V2-Vary：打光模型重大升级，具有更强的光照变化，适用商用产品&摄影打光

ComfyUI桌面发布和开源，汉化共享等技巧，逐步完善win&mac多平台体验

[ComfyUI]SD3.5：ControlNet重磅发布！激烈竞争能否夺回黑森林Flux高地？

Lumiere：细节真实！专注更真实保持无损原生提示遵循和构图模型

[ComfyUI]Flux-IPA：效果惊艳！IPA基于10M数据F1专属风格迁移！补齐黑森林遗憾和空缺

[ComfyUI]LTXV：超高效视频模型！仅需4秒生成5秒24帧高质量视频，运动一致性且消除物体变形

[ComfyUI]FluxCN：精确控制！F1可控性组件最全剖析，线稿上色和转绘实战，黑森林官方下场亲手打造F1生态

[ComfyUI]FluxFill：先进与高效重绘和扩图神器，超越阿里等同类模型，黑森林官方下场亲手打造F1生态

[ComfyUI]FluxRedux：超好玩创意灵感，一丝小遗憾！F1风格化溶图组件，黑森林官方下场亲手打造F1生态

FLUX.1-Tools：黑森林官方重磅出手构建F1完善生态，补齐CN&IPA！加速生态里程碑进程

智谱CogVideoX1.5：重大升级，可商用开源模型！10秒&增强质量&任意分辨率，ComfyUI无缝体验

[ComfyUI]Flux：Lovely网红写真，极致细节写实，小红书网红人物写真风格

太酷啦！实时人物表情编辑神器，ComfyUI玩转视频表情无限创意

[ComfyUI]Flux：国漫经典《诛仙》之陆雪琪

PixelWave：更真实细节|动漫|摄影多种艺术风格显著提升，基于黑森林F.1D超5周精调模型

腾讯Hunyuan3D：仅需10秒生成3D视图，首个同时支持文字和图像生成3D开源模型，3D游戏|影视|电商|虚拟现实

PromptGenV2：仅1G低显存福音！更适合F1的CLIP和T5双通道反推！接近Joy性能与速率平衡反推模型

15秒F.1D直出，极限无损加速方案，环境大升级敢不敢来试？

Shuttle-3-Diffusion：可商用F.1去蒸馏模型！仅4步约3秒出图，性能质量显著提升

Mochi1：更简单和可商用，ComfyUI内核支持，社区生态推动4张H100到消费级显卡可用

CogVideo:重磅升级！图生视频完美镜头控制和3D环绕,商用级开源AI视频曙光

阿里InContextLoRA：更强ID一致性！基于黑森林F1身份一致性连贯视频分镜图集，10组风格无限创意

Flux-NewReality:栩栩如生摄影级解禁模型,追求真实细节&风景&神话高品质艺术

[ComfyUI]InstantIR：来自小红书团队模糊图像修复技术，效果是否惊艳？

更像了！5个百分点提升，字节写真换脸PuLID-F1再升级，小红书流量密码

[ComfyUI]F.1服装生成器，20.5K数据LORA助力服装电商设计

OmniGen：统一图像生成和多任务集成模型，任意人物自由合影，8位量化7G可体验

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

[ComfyUI]腾讯混元视频：虚实完美融合创意无极限！130亿大杯&影视级画质&导演级运镜&原生切镜&遵循物理运动&连续动作

腾讯混元视频：虚实完美融合创意无极限！

HunyuanVideo简介

架构方案

性能评估

演示案例

01.原生切镜 丝滑转场

02.连续动作 流畅自然

03.国风创作 东方文化

04.声控魔力，语音驱动

HunyuanVideo ComfyUI体验

Flux文生图工作流

HunyuanVideo工作流

01.健身(ComfyUI)

02.烧烤(ComfyUI)

03. 麻婆豆腐(Web)

04.健身(Web)

05.肚皮舞(Web)

06.镜头切换(Web)

01.原生切镜丝滑转场

02.连续动作流畅自然

03.国风创作东方文化