腾讯疯了：忘了Sora吧，混元大模型开源！

财富 2024-12-06 09:00 山东

Sora喊了快一年了，直到前几天发现它还在免费压榨艺术家的劳动力，从艺术家释放出的视频看，和年初高调放出的视频差距很大，甚至都无法和已经正式发布的可灵、即梦等中国厂商的产品相比。

眼看2024年就要过去了，腾讯直接发了大招，宣布杀死比赛：发布混元视频大模型，并开源。

根据开源计划，混元将开源文生视频模型和图生视频模型，目前已经开源了文生视频模型的推理代码和模型权重。后续将开源Penguin Video基准测试集、Gradio、ComfyUI和Diffusers以及图生视频模型的推理代码和模型权重。

不过，对于使用消费级显卡的用户来说，也很难在本地部署，因为目前该模型最小显存要45G。使用量化版本至少需要24G，只有3090或者4090用户才能勉强跑得起量化版。

如果想要体验，可以下载腾讯元宝，能够限次数使用该模型。

让我们看一下官方发布的效果视频：

HunyuanVideo 的架构

HunyuanVideo 是一个隐空间模型，训练时它采用了 3D VAE 压缩时间维度和空间维度的特征。文本提示通过一个大语言模型编码后作为条件输入模型，引导模型通过对高斯噪声的多步去噪，输出一个视频的隐空间表示。最后，推理时通过 3D VAE 解码器将隐空间表示解码为视频。

亮点

统一的图视频生成架构

HunyuanVideo 采用了 Transformer 和 Full Attention 的设计用于视频生成。具体来说，我们使用了一个“双流到单流”的混合模型设计用于视频生成。在双流阶段，视频和文本 token 通过并行的 Transformer Block 独立处理，使得每个模态可以学习适合自己的调制机制而不会相互干扰。在单流阶段，我们将视频和文本 token 连接起来并将它们输入到后续的 Transformer Block 中进行有效的多模态信息融合。这种设计捕捉了视觉和语义信息之间的复杂交互，增强了整体模型性能。

MLLM 文本编码器

过去的视频生成模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器，其中 CLIP 使用 Transformer Encoder，T5 使用 Encoder-Decoder 结构。HunyuanVideo 使用了一个预训练的 Multimodal Large Language Model (MLLM) 作为文本编码器，它具有以下优势：

与 T5 相比，MLLM 基于图文数据指令微调后在特征空间中具有更好的图像-文本对齐能力，这减轻了扩散模型中的图文对齐的难度；
与 CLIP 相比，MLLM 在图像的细节描述和复杂推理方面表现出更强的能力；
MLLM 可以通过遵循系统指令实现零样本生成，帮助文本特征更多地关注关键信息。

由于 MLLM 是基于 Causal Attention 的，而 T5-XXL 使用了 Bidirectional Attention 为扩散模型提供更好的文本引导。因此，我们引入了一个额外的 token 优化器来增强文本特征。

3D VAE

我们的 VAE 采用了 CausalConv3D 作为 HunyuanVideo 的编码器和解码器，用于压缩视频的时间维度和空间维度，其中时间维度压缩 4 倍，空间维度压缩 8 倍，压缩为 16 channels。这样可以显著减少后续 Transformer 模型的 token 数量，使我们能够在原始分辨率和帧率下训练视频生成模型。

Prompt 改写

为了解决用户输入文本提示的多样性和不一致性的困难，我们微调了 Hunyuan-Large model 模型作为我们的 prompt 改写模型，将用户输入的提示词改写为更适合模型偏好的写法。

我们提供了两个改写模式：正常模式和导演模式。两种模式的提示词见这里。正常模式旨在增强视频生成模型对用户意图的理解，从而更准确地解释提供的指令。导演模式增强了诸如构图、光照和摄像机移动等方面的描述，倾向于生成视觉质量更高的视频。注意，这种增强有时可能会导致一些语义细节的丢失。

Prompt 改写模型可以直接使用 Hunyuan-Large 部署和推理. 我们开源了 prompt 改写模型的权重.

能力评估

为了评估 HunyuanVideo 的能力，我们选择了四个闭源视频生成模型作为对比。我们总共使用了 1,533 个 prompt，每个 prompt 通过一次推理生成了相同数量的视频样本。为了公平比较，我们只进行了一次推理以避免任何挑选。在与其他方法比较时，我们保持了所有选择模型的默认设置，并确保了视频分辨率的一致性。视频根据三个标准进行评估：文本对齐、运动质量和视觉质量。在 60 多名专业评估人员评估后，HunyuanVideo 在综合指标上表现最好，特别是在运动质量方面表现较为突出。

模型	是否开源	时长	文本对齐	运动质量	视觉质量	综合评价	排序
HunyuanVideo (Ours)	✔	5s	61.8%	66.5%	95.7%	41.3%	1
国内模型 A (API)	✘	5s	62.6%	61.7%	95.6%	37.7%	2
国内模型 B (Web)	✘	5s	60.1%	62.9%	97.7%	37.5%	3
GEN-3 alpha (Web)	✘	6s	47.7%	54.7%	97.5%	27.4%	4
Luma1.6 (API)	✘	5s	57.6%	44.2%	94.1%	24.8%	5

运行配置

下表列出了运行 HunyuanVideo 模型使用文本生成视频的推荐配置（batch size = 1）：

模型	分辨率(height/width/frame)	去噪步数	峰值显存
HunyuanVideo	720px1280px129f	30	60G
HunyuanVideo	544px960px129f	30	45G

本项目适用于使用 NVIDIA GPU 和支持 CUDA 的设备

本项目在单张 H800/H20 GPU 上进行了测试
运行 720px1280px129f 的最小显存要求是 60GB，544px960px129f 的最小显存要求是 45GB。

️ 安装和依赖

首先克隆 git 仓库:

git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo

Linux 安装指引

我们提供了 environment.yml 文件来设置 Conda 环境。Conda 的安装指南可以参考这里。

我们推理使用 CUDA 11.8 或 12.0+ 的版本。

# 1. 准备 conda 环境
conda env create -f environment.yml

# 2. 激活环境
conda activate HunyuanVideo

# 3. 安装 pip 依赖
python -m pip install -r requirements.txt

# 4. 安装 flash attention v2 用于加速 (要求 CUDA 11.8 或更高)
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.5.9.post1

另外，我们提供了一个预构建的 Docker 镜像 docker_hunyuanvideo。

# 1.使用下面的链接下载 Docker 镜像 tar 包 (用于 CUDA 12).
wget https://aivideo.hunyuan.tencent.com/download/HunyuanVideo/hunyuan_video_cu12.tar

# 2. 导入 docker tar 包然后打印镜像的元信息 (用于 CUDA 12).
docker load -i hunyuan_video.tar

docker image ls

# 3. 启动容器
docker run -itd --gpus all --init --net=host --uts=host --ipc=host --name hunyuanvideo --security-opt=seccomp=unconfined --ulimit=stack=67108864 --ulimit=memlock=-1 --privileged  docker_image_tag

下载预训练模型

下载预训练模型参考这里。

推理

我们在下表中列出了支持的高度/宽度/帧数设置。

分辨率	h/w=9:16	h/w=16:9	h/w=4:3	h/w=3:4	h/w=1:1
540p	544px960px129f	960px544px129f	624px832px129f	832px624px129f	720px720px129f
720p (推荐)	720px1280px129f	1280px720px129f	1104px832px129f	832px1104px129f	960px960px129f

使用命令行

cd HunyuanVideo

python3 sample_video.py \
    --video-size 720 1280 \
    --video-length 129 \
    --infer-steps 50 \
    --prompt "A cat walks on the grass, realistic style." \
    --flow-reverse \
    --flow-shift 7.0 \
    --seed 0 \
    --use-cpu-offload \
    --save-path ./results

更多配置

下面列出了更多关键配置项：

参数	默认值	描述
--prompt	None	用于生成视频的 prompt
--video-size	720 1280	生成视频的高度和宽度
--video-length	129	生成视频的帧数
--infer-steps	50	生成时采样的步数
--embedded-cfg-scale	6.0	文本的控制强度
--flow-shift	7.0	推理时 timestep 的 shift 系数，值越大，高噪区域采样步数越多
--flow-reverse	False	If reverse, learning/sampling from t=1 -> t=0
--neg-prompt	None	负向词
--seed	0	随机种子
--use-cpu-offload	False	启用 CPU offload，可以节省显存
--save-path	./results	保存路径

BibTeX

如果您认为 HunyuanVideo 给您的研究和应用带来了一些帮助，可以通过下面的方式来引用:

@misc{kong2024hunyuanvideo,
      title={HunyuanVideo: A Systematic Framework For Large Video Generative Models}, 
      author={Weijie Kong, Qi Tian, Zijian Zhang, Rox Min, Zuozhuo Dai, Jin Zhou, Jiangfeng Xiong, Xin Li, Bo Wu, Jianwei Zhang, Kathrina Wu, Qin Lin, Aladdin Wang, Andong Wang, Changlin Li, Duojun Huang, Fang Yang, Hao Tan, Hongmei Wang, Jacob Song, Jiawang Bai, Jianbing Wu, Jinbao Xue, Joey Wang, Junkun Yuan, Kai Wang, Mengyang Liu, Pengyu Li, Shuai Li, Weiyan Wang, Wenqing Yu, Xinchi Deng, Yang Li, Yanxin Long, Yi Chen, Yutao Cui, Yuanbo Peng, Zhentao Yu, Zhiyu He, Zhiyong Xu, Zixiang Zhou, Zunnan Xu, Yangyu Tao, Qinglin Lu, Songtao Liu, Dax Zhou, Hongfa Wang, Yong Yang, Di Wang, Yuhong Liu, and Jie Jiang, along with Caesar Zhong},
      year={2024},
      archivePrefix={arXiv},
      primaryClass={cs.CV}}

ComfyUI: ComfyUI-HunyuanVideoWrapper by Kijai

路过银河AI

凝视深渊过久，深渊将回以凝视。天空的深渊，便是天渊。

最新文章

忘了4090吧，5090来了！

12G显存可用：混元文生视频工作流

造梦师手记：一键照片转插画（工作流）

造梦师手记：把Flux变成媲美MJ的Niji风格

造梦师手记：超越Pony的完美身体模型

造梦师手记：我想和你虚度时光

造梦师手记：欧美写实风格Flux改进大模型

为什么AI绘画创作者都爱Illustrious

造梦师手记：追求电影般真实的AI绘画模型

造梦师手记：低幼又性感的真人国风

国产AI之光，正在超越ChatGPT！

造梦师手记：可以随手发XHS的真实模型

造梦师手记：超越手绘，可以接单赚钱的AI模型

马斯克发布最新大模型，号称超越ChatGPT

一键换装工作流（加强版）

AI完美去水印工作流

造梦师手记：水墨红尘

造梦师手记：我在梦里遇见过你

最顶级的AI视频模型，这次真的来了

造梦师手记：超现实主义摄影

淘宝模特失业了：AI一键换装工作流

最佳动漫AI模型：华丽的死亡

FaceShaper：完美换脸

Doll风格，精致之美

一键真人转玩偶工作流

Flux模型PuLID换脸工作流

8G显存可玩：腾讯混元AI视频大模型量化版

万众瞩目的Sora，姗姗来迟

绘梦，前所未有的真实感体验

造梦师手记：用AI致敬童年

造梦师手记：Flux画出魔法少女的水晶球

腾讯疯了：忘了Sora吧，混元大模型开源！

图生图PuLID一键换脸（附工作流）

一个逼真到发了免责声明的PVC手办AI模型

造梦师手记：惊艳的Prefectious

可灵：国产Sora已经开始接入ComfyUI了

Flux模型小红书街拍风：RedCraft | 红潮

把Flux变成生产力：国潮扁平艺术插画

Pony华丽谢幕：乖巧优雅的亚洲女孩

造梦师手记：Flux任意场景AI组合

造梦师手记：Flux最佳AI扩图模型

最好用的ComfyUI客户端，超越秋叶

造梦师手记：AI动漫的杰作

好消息，AI会画手了；坏消息... ...

瘦身7G，小显存也可以玩Flux了

造梦师手记：当动漫和艺术结合

国风Flux大模型的里程碑

一张图片相当于LoRa，IPAdapter更新Flux版

造梦师手记：万圣节来捣蛋！

一个不下载你会后悔的AI模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉