Open-Sora是一项致力于高效制作高质量视频的计划。目的是让所有人都能使用模型、工具和所有细节。通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。
Open-Sora的目标是在内容创作领域促进创新、创造力和包容性。目前已经支持2s~15s、144p 到 720p、任意比例的文本转图片、文本转视频、图片转视频、视频转视频、无限时间生成
Open-Sora的构建方法总结为以下几个方面:
数据来源与处理
利用多个开放数据集(如Webvid-10M、Panda-70M等)生成30M个视频剪辑,确保模型训练的可重复性。 数据预处理采用完整的管道,包括场景切割、视频过滤和文本生成,以确保高质量的视频文本对。
使用3D自编码器对视频进行压缩,减少计算负担,并通过文本编码器处理文本输入。 采用空间-时间注意力机制,使得模型在生成视频时能够同时考虑空间和时间信息。
采用多阶段训练策略,分为三个阶段以优化训练效率。 通过动态分辨率和宽高比的支持,模型能够适应不同的视频生成任务,提升生成质量。
相关链接
论文:http://arxiv.org/abs/2412.20404v1 代码:https://github.com/hpcaitech/Open-Sora
论文介绍
视觉和语言是人类的两种基本感觉,它们构成了我们的认知能力和智力。虽然人工智能语言能力取得了重大突破,但人工智能视觉智能,尤其是生成和模拟我们所见世界的能力,却远远落后。
为了促进人工智能视觉智能的发展和普及,作者创建了 OpenSora,这是一个旨在生成高保真视频内容的开源视频生成模型。Open-Sora 支持广泛的视觉生成任务,包括文本到图像生成、文本到视频生成和图像到视频生成。该模型利用先进的深度学习架构和训练/推理技术实现灵活的视频合成,可以生成长达 15 秒、高达 720p 分辨率和任意宽高比的视频内容。
具体来说,OpenSora引入了时空扩散变换器 (STDiT),这是一种高效的视频扩散框架,可将空间和时间注意力分离。我们还引入了高度压缩的 3D 自动编码器,使表示紧凑,并通过临时训练策略进一步加速训练。
数据处理
高质量的数据对于训练良好的生成模型至关重要。为此,OpenSora建立了完整的数据处理流程,可以将原始视频无缝转换为高质量的视频-文本对。流程如下所示:
视频描述
数据预处理
模型结构
模型架构基于 PixArt,这是一种图像扩散变换器,其中使用 T5 文本编码器对文本进行编码,并在视频和文本潜在特征之间应用交叉注意力。 为了实现高效的视频生成,采用了一种时空注意力机制,即受Latte启发的时空注意力机制,即空间时间扩散变换器 (STDiT),取代了对所有标记的完全注意力。具体而言,空间自注意力应用于每一帧内,而时间注意力应用于同一空间位置的跨帧。
为了专注于视频生成,该模型以构建一个强大的预训练图像生成模型。该模型使用 PixArtα 进行初始化,PixArtα 是一种经过 T5 条件处理的 DiT 结构,针对高质量和高效的图像生成进行了优化。新引入的时间注意力的投影层初始化为零,在训练开始时保留了模型的原始图像生成能力。时间注意力的加入使参数数量从 5.8 亿增加到 1.1 亿。
结论
Open-Sora 代表了开源视频生成领域的重大进步,它提供了一个包括数据处理、训练代码和模型权重的综合框架。通过成功复制 Sora 报告中的关键技术,并能够生成长达 16 秒的高质量视频,分辨率高达 720p,运动动态可控,Open-Sora 使高级视频生成技术的使用变得民主化。这一举措不仅促进了社区合作,还为该领域的未来发展奠定了基础。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~