最强开源文生视频!腾讯混元 HunyuanVideo对外开放并全面开源

科技   2024-12-03 20:15   广东  

SmartFlowAI


点击上方蓝字关注我们

作者:羰汤羰

全文约 830 字,预计阅读时间 4 分钟

Github 链接:https://github.com/Tencent/HunyuanVideo

官方链接:https://aivideo.hunyuan.tencent.com/

简介

HunyuanVideo 是由腾讯开源的一个用于大规模视频生成模型训练的系统框架。该项目包含 PyTorch 模型定义、预训练权重和推理/采样代码。

GitHub 链接[1]

什么是 HunyuanVideo?

HunyuanVideo 是一个开源的视频基础模型,其视频生成性能可媲美甚至优于领先的闭源模型。HunyuanVideo 具有一个综合框架,集成了数据整理、图像-视频联合模型训练和高效的支撑基础设施,旨在促进大规模模型训练和推理。

主要特性

  • 统一的图像和视频生成架构:采用 Transformer 设计,并使用全注意力机制进行统一的图像和视频生成。
  • MLLM 文本编码器:使用预训练的多模态大型语言模型 (MLLM) 作为文本编码器,具有更好的图像-文本对齐和复杂推理能力。
  • 3D VAE:使用 CausalConv3D 压缩像素空间中的视频和图像,将其压缩到紧凑的潜在空间。
  • Prompt Rewrite:为了解决用户输入文本提示的多样性和不一致性的困难,采用微调后的 Hunyuan-Large 模型对用户输入的提示词进行改写,以增强对用户意图的理解(正常模式)和增强诸如构图、光照和摄像机移动等方面的描述(大师模式)

性能评估

通过大量实验和一系列有针对性的设计,HunyuanVideo 在视觉质量、运动多样性、文本-视频对齐和生成稳定性方面均表现出色。在专业人工评估结果中,HunyuanVideo 比以往最先进的模型(如 Runway Gen-3、Luma 1.6 和 3 个表现最好的中文视频生成模型)表现得更好。

数据来源于 HunyuanVideo Github 仓库

下载和使用

HunyuanVideo 的 Github 仓库提供了详细的安装指南和依赖项,并支持多种配置选项。您可以从 GitHub 下载预训练模型,并使用命令行进行推理。

下表列出了运行 HunyuanVideo 模型使用文本生成视频的推荐配置(batch size = 1):

数据来源于 HunyuanVideo Github 仓库
  • 本项目适用于使用 NVIDIA GPU 和支持 CUDA 的设备
    • 本项目在单张 H800/H20 GPU 上进行了测试
    • 运行 720px1280px129f 的最小显存要求是 60GB,544px960px129f 的最小显存要求是 45GB。
  • 测试操作系统:Linux

总结

HunyuanVideo 是一个功能强大的视频生成模型,为开源社区提供了一种高效、易用的工具。通过开源代码和权重,HunyuanVideo 有助于缩小闭源和开源视频基础模型之间的差距,促进视频生成生态系统的进一步发展,相信它将为更多研究者和应用开发者带来便利。

参考资料
[1]

GitHub 链接: https://github.com/Tencent/HunyuanVideo


往期 · 推荐

使用大语言模型进行自动且多功能的评估

上海AI实验室版o1已上线!数学竞赛题、Leetcode赛题全拿下,还会玩24点

LiveBench: 一个具有挑战性且无污染的 LLM 评测基准

o1圈的新王!阿里QwQ-32B开源

🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!

一起“点赞”三连,点击“阅读原文”访问官网👇

机智流
共赴 AI 时代浪潮~
 最新文章