HunyuanVideo：腾讯开源 130 亿参数视频生成模型，性能超越Sora，混元如愿！

文摘 2024-12-04 08:00 美国

腾讯开源了拥有 130 亿参数的大型视频生成模型 HunyuanVideo，其性能可与甚至超越领先的闭源模型。该模型采用先进的系统框架，集成了多项创新技术，如 MLLM 文本编码器、5D 并行训练策略 等，实现了 高品质、高动态、连续动作 的视频生成，并支持多种应用，如 头像动画、视频配音 等，为视频创作带来新的可能性。

HunyuanVideo 正式开源！130 亿参数，性能炸裂，比肩闭源商业模型

炸裂消息！视频生成领域迎来变革！腾讯正式开源了 HunyuanVideo，一个拥有 130 亿参数 的巨型视频生成模型。这标志着曾经被少数公司掌握的尖端视频生成技术，现在人人皆可触及。HunyuanVideo 不仅参数规模庞大，其性能也相当炸裂，甚至可以与闭源商业模型一较高下。这意味着，视频创作的门槛将被大大降低，每个人都能轻松创作出精彩的视频内容，一个全民创作视频的时代即将到来！

先看看生成视频效果，Prompt：听海浪的声音，听混元avatar为你如愿。

HunyuanVideo：技术亮点深度解读

HunyuanVideo 的强大性能源于其先进的系统框架和一系列创新技术的完美融合。

统一的图像-视频生成架构，化繁为简

HunyuanVideo 最大的亮点之一在于其采用了 统一的 Transformer 架构，可以 同时处理图像和视频生成任务。这意味着，开发者无需维护两套独立的模型，大大简化了开发和部署流程。这种统一的架构也使得模型能够更好地理解和融合图像和视频信息，为高质量视频生成奠定了基础。“双流到单流”的混合设计，巧妙地将视频和文本信息分别处理后再融合，实现了更精准的控制和生成，也体现了 HunyuanVideo 在架构设计上的独具匠心。

基于 MLLM 的强大文本理解能力，精准把握创作意图

理解文本是视频生成的关键。HunyuanVideo 采用了基于 MLLM（多模态大型语言模型）的文本编码器，相较于传统的 CLIP 或 T5 方法，MLLM 拥有更强大的语义理解和推理能力，能够更准确地理解文本提示中的细微差别，例如角色关系、动作逻辑、情感色彩等，从而生成更符合语义、更具表现力的视频内容。这就像是一位经验丰富的导演，能够精准地把握剧本的精髓，将文字转化为生动的画面。同时，HunyuanVideo 还集成了 CLIP-Large 的文本特征作为全局指导，进一步提升了文本理解的准确性。

高效的 3D VAE 压缩技术，兼顾质量与效率

为了兼顾生成视频的质量和效率，HunyuanVideo 使用 3D VAE 对视频进行时空压缩。时间维度压缩 4 倍，空间维度压缩 8 倍，并压缩为 16 个通道。这种压缩技术在显著减少计算量的同时，最大程度地保留了视频的细节信息，使得模型能够在 原始分辨率和帧率下进行训练，从而保证了生成视频的高质量。这就像是一位技艺高超的剪辑师，能够在保证影片质量的前提下，精简素材，提高效率。与其他开源 VAE 模型相比，HunyuanVideo 的 3D VAE 在视频和图像数据上的 PSNR 指标都更高，尤其在文本、小面部和复杂纹理方面表现更出色。

智能 Prompt 改写，降低创作门槛

对于不熟悉专业术语的用户来说，写出一个清晰、准确的 Prompt 并非易事。HunyuanVideo 提供的智能 Prompt 改写机制，可以将用户输入的自然语言提示改写成更符合模型训练数据的格式，从而降低了创作门槛，让即使没有专业知识的用户也能轻松创作出高质量的视频。模型提供了两种改写模式：正常模式和大师模式，分别适用于不同的创作需求，就像是一位贴心的助手，帮助用户更好地表达创作意图。该机制支持多语言输入、规范 Prompt 结构、简化复杂术语，并使用自修正技术进行优化。

前沿的模型缩放策略，挑战极限

训练一个 130 亿参数 的巨型模型并非易事。HunyuanVideo 的训练基于前沿的模型缩放策略，研究了模型大小、数据集大小和计算资源之间的关系，并以此确定了最佳的模型和数据配置。这就像是一位经验丰富的工程师，能够精准地计算出所需的资源，并进行合理的分配，从而保证了模型的顺利训练。HunyuanVideo 团队首先建立了文本到图像的缩放定律，然后推导出了文本到视频的缩放定律，最终确定了 130 亿参数的模型规模和相应的数据量。

海量高质量数据，铸就强大模型

HunyuanVideo 的训练基于 海量高质量的互联网图像和视频数据。团队构建了完善的数据预处理流程，包括数据过滤、数据清洗、数据标注等，确保了训练数据的质量和一致性。其中，结构化的数据标注，为模型提供了丰富的语义信息，提升了生成视频的质量和可控性。数据过滤流程采用分层结构，逐步提高过滤标准，构建了五个不同分辨率的训练数据集，并 结合了人工标注来构建高质量的微调数据集。

多级渐进式训练，稳步提升性能

为了提升模型的训练效率和稳定性，HunyuanVideo 采用了多级渐进式训练策略。模型首先在 低分辨率、短视频上进行预训练，然后逐步过渡到 高分辨率、长视频。这种渐进式的训练方式，就像是一位循循善诱的老师，引导模型逐步掌握视频生成的技巧，最终达到最佳的性能。在图像预训练阶段，还采用了多尺度训练策略，以提高模型在不同分辨率下的生成能力。

模型加速技术，让创作更加流畅

为了提高推理速度，HunyuanVideo 采用了时间步长偏移、文本引导蒸馏等模型加速技术。这些技术 显著降低了推理成本，使得模型能够在更短的时间内生成高质量的视频，让创作过程更加流畅。时间步长偏移策略通过将更多计算资源分配给早期时间步长，在较少的推理步数下保持较高的时空质量。文本引导蒸馏技术将无条件和有条件输入的组合输出蒸馏到单个学生模型中，从而提高推理速度。

HunyuanVideo：性能评测与对比

与闭源模型的性能对比，HunyuanVideo 表现优异

为了客观评估 HunyuanVideo 的性能，腾讯团队将其与 Runway Gen-3、Luma 1.6 以及三个中文社区表现最好的视频生成模型 进行了对比。评估结果显示，HunyuanVideo 在文本对齐、运动质量和视觉质量等关键指标上均表现优异，尤其在 运动质量方面，HunyuanVideo 甚至超越了一些闭源模型，充分展现了其强大的视频生成能力。评估过程中，使用了 1533 个文本提示，并由 60 位专业评估人员 进行评估。

模型	是否开源	时长	文本对齐	运动质量	视觉质量	综合评价	排序
HunyuanVideo (Ours)	✔	5s	61.8%	66.5%	95.7%	41.3%	1
国内模型 A (API)	✘	5s	62.6%	61.7%	95.6%	37.7%	2
国内模型 B (Web)	✘	5s	60.1%	62.9%	97.7%	37.5%	3
GEN-3 alpha (Web)	✘	6s	47.7%	54.7%	97.5%	27.4%	4
Luma1.6 (API)	✘	5s	57.6%	44.2%	94.1%	24.8%	5

HunyuanVideo：实际应用与案例

文本到视频生成

只需输入一段文字描述，HunyuanVideo 即可生成相应的视频内容。例如，输入“一只猫在草地上行走，逼真风格”，即可生成一段逼真的猫咪漫步视频。这为广告创意、影视制作等领域提供了无限可能。

图像到视频生成 (I2V)

HunyuanVideo 也支持 图像到视频的生成 (I2V)，即根据一张图片和一段文本描述，生成一段以该图片为首帧的视频。模型通过将图像视为单帧视频并进行零填充，实现了 T2V 和 I2V 的统一。这为视频编辑、内容创作等提供了新的工具。

头像动画

HunyuanVideo 可以根据 语音、表情模板、姿势模板 等驱动信号，对头像进行动画化，例如生成逼真的语音驱动虚拟主播视频。模型支持上半身的语音驱动动画，以及全身姿势和表情的控制，极大地丰富了动画创作的可能性。

视频配音 (V2A)

HunyuanVideo 还开发了 视频配音 (V2A) 功能，可以根据视频内容自动生成相应的音效和背景音乐，例如鸟叫声、流水声、汽车引擎声等。模型通过将视频和音频信息在隐空间中对齐，并使用 flow-matching 进行训练，实现了高质量的视频配音效果。。

HunyuanVideo：未来展望与发展方向

HunyuanVideo 的开源，标志着视频生成领域迈入了新的发展阶段。未来，HunyuanVideo 将继续朝着 更高分辨率、更长视频生成、更精细控制 等方向发展，并探索更多 innovative 的应用场景，例如视频编辑、视频修复等，为用户提供更强大的视频创作工具。同时，团队计划逐步开源更多功能模块，包括图像到视频生成模型、训练代码等，进一步赋能社区，推动视频生成技术的快速发展。