Allegro 是一个强大的文本转视频模型,可以通过简单的文本输入生成长达 6 秒、15 FPS 和 720p 分辨率的高质量视频。
主要特点
• 开源:完整的模型权重和代码可供社区使用,Apache 2.0!
• 多样化的内容创作:能够生成各种各样的内容,从人类和动物的特写镜头到各种动态场景。
• 高质量输出:以 15 FPS 的速度生成 6 秒的详细视频,分辨率为 720x1280,可以使用EMA-VFI插值到 30 FPS 。
• 小巧高效:具有 175M 参数 VideoVAE 和 2.8B 参数 VideoDiT 模型。支持多种精度(FP32、BF16、FP16),在 BF16 模式下使用 9.3 GB GPU 内存,并具有 CPU 卸载功能。上下文长度为 79.2K,相当于 88 帧。
相关链接
• 论文:https://huggingface.co/rhymes-ai/Allegro
• 代码:https://github.com/rhymes-ai/Allegro/tree/main
• 试用:https://huggingface.co/rhymes-ai/Allegro
• 图库:https://rhymes.ai/allegro_gallery
模型信息
Allegro 背后的技术
该模型的功能建立在处理视频数据、压缩原始视频和生成视频帧的核心技术之上,从而实现将文本提示转换为短视频片段。
1. 大规模视频数据处理
为了创建一个能够生成多样化和逼真的视频的模型,需要一个能够处理大量视频数据的系统。考虑到这一点,我们设计了系统的数据处理和过滤管道,以从原始数据中获取训练视频。该过程是连续的,包括以下阶段:
接下来,基于处理过程中获得的指标,我们开发了一个结构化数据系统,该系统允许对数据进行多维分类和聚类,从而促进模型训练和针对各个阶段和目的的微调。我们在技术报告中分享了详细的配方。
1. 将视频压缩成视觉标记
视频生成的主要挑战之一是管理所涉及的大量数据。为了解决这个问题,我们将原始视频压缩成更小的视觉标记,同时保留必要的细节,从而实现更流畅、更高效的视频生成。具体来说,我们设计了一个视频变分自动编码器 (VideoVAE),它将原始视频编码到时空潜在空间中。VideoVAE 建立在预训练的图像 VAE 之上,并通过时空建模层进行扩展,以有效利用空间压缩功能。
3. 缩放视频扩散变压器
Allegro 视频生成功能的核心在于其扩展的 Diffusion Transformer 架构,该架构应用扩散模型来生成高分辨率视频帧,确保视频运动的质量和流畅度。
Allegro 的主干网络建立在 DiT(扩散变换器)架构之上,具有 3D RoPE 位置嵌入和 3D 全注意力机制。该架构可有效捕捉视频数据中的空间和时间关系。
与使用 UNet 架构的传统扩散模型相比,Transformer 结构更有利于模型扩展。通过利用 3D 注意力机制,DiT 可以处理视频帧的空间维度及其时间演变,从而更细致地理解运动和背景。
3D 注意力机制与 DiT 模型的扩展能力相结合,显著提高了性能,可以生成具有丰富细节和流畅动作的高质量视频。
Allegro 的实际应用
投入使用后,Allegro 可以将各种文本描述转换成简短的视频片段。给出提示“粉红色的鱼在海里游泳”,它会生成一段视频,捕捉色彩鲜艳的鱼在水中滑行的流畅动作。相比之下,在“宇航员骑着马”中,Allegro 创造了一个更加奇幻的场景,展示了一个身穿宇航服的人骑在马上,背景是尘土飞扬。这些示例展示了 Allegro 在可视化自然和想象场景方面的范围,从水下场景到超现实概念。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~