SmartFlowAI
点击上方蓝字关注我们
作者:羰汤羰
全文约 830 字,预计阅读时间 4 分钟
Github 链接:https://github.com/Tencent/HunyuanVideo
官方链接:https://aivideo.hunyuan.tencent.com/
简介
HunyuanVideo 是由腾讯开源的一个用于大规模视频生成模型训练的系统框架。该项目包含 PyTorch 模型定义、预训练权重和推理/采样代码。
GitHub 链接[1]
什么是 HunyuanVideo?
HunyuanVideo 是一个开源的视频基础模型,其视频生成性能可媲美甚至优于领先的闭源模型。HunyuanVideo 具有一个综合框架,集成了数据整理、图像-视频联合模型训练和高效的支撑基础设施,旨在促进大规模模型训练和推理。
主要特性
统一的图像和视频生成架构:采用 Transformer 设计,并使用全注意力机制进行统一的图像和视频生成。
MLLM 文本编码器:使用预训练的多模态大型语言模型 (MLLM) 作为文本编码器,具有更好的图像-文本对齐和复杂推理能力。
3D VAE:使用 CausalConv3D 压缩像素空间中的视频和图像,将其压缩到紧凑的潜在空间。
Prompt Rewrite:为了解决用户输入文本提示的多样性和不一致性的困难,采用微调后的 Hunyuan-Large 模型对用户输入的提示词进行改写,以增强对用户意图的理解(正常模式)和增强诸如构图、光照和摄像机移动等方面的描述(大师模式)
性能评估
通过大量实验和一系列有针对性的设计,HunyuanVideo 在视觉质量、运动多样性、文本-视频对齐和生成稳定性方面均表现出色。在专业人工评估结果中,HunyuanVideo 比以往最先进的模型(如 Runway Gen-3、Luma 1.6 和 3 个表现最好的中文视频生成模型)表现得更好。
下载和使用
HunyuanVideo 的 Github 仓库提供了详细的安装指南和依赖项,并支持多种配置选项。您可以从 GitHub 下载预训练模型,并使用命令行进行推理。
下表列出了运行 HunyuanVideo 模型使用文本生成视频的推荐配置(batch size = 1):
本项目适用于使用 NVIDIA GPU 和支持 CUDA 的设备 本项目在单张 H800/H20 GPU 上进行了测试 运行 720px1280px129f 的最小显存要求是 60GB,544px960px129f 的最小显存要求是 45GB。 测试操作系统:Linux
总结
HunyuanVideo 是一个功能强大的视频生成模型,为开源社区提供了一种高效、易用的工具。通过开源代码和权重,HunyuanVideo 有助于缩小闭源和开源视频基础模型之间的差距,促进视频生成生态系统的进一步发展,相信它将为更多研究者和应用开发者带来便利。
GitHub 链接: https://github.com/Tencent/HunyuanVideo
往期 · 推荐
🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!
一起“点赞”三连,点击“阅读原文”访问官网👇