AI视频生成模型及工具最全收录!开源工具箱和基础模型、视频生成、可控视频生成、动作定制、长视频生成、图像泄漏优化模型..速查指南

文摘   2024-09-22 00:08   浙江  


点击箭头处“蓝色字”,关注更多及时AI资讯哦!!



今天为大家分享是AI视频生成有关的最全知识收录列表!包括开源工具箱和基础模型、视频生成、可控视频生成、动作定制、长视频/电影生成、视频图像泄漏优化模型等等领先的AI视频领域研究,如果大家日常有与视频生成有关的需要,今天这篇文章一定能为你提供到帮助!


开源工具箱和基础模型



Open-Sora


Open-Sora-Plan

Open-Sora

https://github.com/PKU-YuanGroup/Open-Sora-Plan

Open-Sora-Plan是一个由北京大学元实验室和图展人工智能共同实验室发起的开源项目,旨在复现文本到视频模型Sora。该项目希望通过开源社区的共同努力,构建一个高效且可扩展的文本到视频生成模型。Open-Sora-Plan整合了基础模型架构(如DIT和VideoGPT),并规范了项目结构。该项目不仅提供了训练代码、数据集和使用说明,还通过整合CausalVideoVAE、联合图像-视频训练和多种视频生成模型,显著增强了视频生成的质量和精度。

Open-Sora-Plan的核心技术框架包括视频编解码模块、Diffusion Transformer模型和条件输入三大模块。该项目采用了三个阶段的训练流程:首先在大量图像数据上预训练,得到初始化权重;然后在大量视频数据上预训练,学习视频时序关系;最后在少量高质量视频数据上微调。这种训练流程旨在生成与文本描述相符的高质量视频内容。

Open-Sora-Plan的最新版本v1.0.0已经发布,新研究显著增强了视频生成的质量以及对文本的控制能力。该项目还支持国产AI算力,并且可以生成最长约21秒的视频。此外,Open-Sora-Plan在开源社区中得到了广泛关注,项目上线一个月,星标量已经达到6.6k


Stable Video Diffusion


Stable Video Diffusion

https://github.com/Stability-AI/generative-models

Stable Video Diffusion(SVD)是一种先进的AI视频生成技术,由Stability AI开发并发布。该模型基于图像扩散模型Stable Diffusion 2.1进行初始化,并通过在图像模型中插入时空卷积和注意力层来构建视频生成模型的架构。其主要功能是将静态图像或文本转换为高质量视频,实现多视角3D生成和文本到视频的高效转换。

SVD模型通过图像预训练、视频预训练和高质量视频微调,最终在大型数据集上进行训练,以达到高分辨率的生成效果。具体来说,SVD可以接受一张静态图像作为条件,并生成一个短视频,分辨率可达576x1024像素,帧数最多可达24帧。此外,SVD还支持从单一视角到多视角的3D合成。

SVD的应用场景非常广泛,包括媒体、娱乐、教育和营销等领域。它能够将文本和图像输入转化为生动的场景,并将概念提升为实时动作和电影创作。目前,Stability AI已经开源了SVD的代码,方便用户快速上手和使用。

总体而言,Stable Video Diffusion代表了AI视频生成领域的一个重要里程碑,为未来的视频生成工具提供了强大的技术支持和广阔的应用前景


Show 1


Show-1

https://github.com/showlab/Show-1

Show-1是一款创新的AI视频创作工具,它在文本到视频生成领域表现出色。根据其研究团队的介绍,Show-1在逼真度和文本到视频对齐方面取得了与Imagen Video或Runways Gen-2等最先进方法相同甚至更好的结果。

Show-1的一个显著特点是其高效的GPU内存使用率。与传统的像素模型相比,Show-1仅需使用纯像素模型生成视频所需GPU内存的20-25%,这使得它在处理大规模数据时更加高效。此外,Show-1还结合了像素和潜在扩散模型(Pixel and Latent Diffusion Models),进一步提高了生成视频的质量和细节。

Show-1不仅注重生成视频的逼真度,还通过专家翻译技术增强细节表现,确保生成的视频与文本提示高度一致。这一特性使其在开源应用中具有吸引力,并且能够满足不同用户的需求。

Show-1是一个强大的多媒体演示工具,它将传统的幻灯片演示提升到了一个全新的高度,并且在AI视频创作领域展现了卓越的表现


Hotshot-XL


Hotshot-XL (text-to-GIF)

https://github.com/hotshotco/Hotshot-XL

https://huggingface.co/hotshotco/Hotshot-XL

https://www.hotshot.co/

专注于将文本转换为GIF动画的开源工具,能够根据文本生成GIF动图。它支持多种尺寸的生成效果,并且可以通过LORA和ControlNet提高视频生成的可控性

Hotshot-XL 是一种先进的 AI 文本到 GIF 模型,专门设计用于与 Stable Diffusion XL(SDXL)协同工作。该模型的主要目标是生成高质量的 GIF 动画,用户可以通过简单的文本描述来控制 GIF 的内容和风格。

Hotshot-XL 可以使用任何经过微调的 SDXL 模型来生成 GIF,这意味着用户可以利用现有的或新开发的 SDXL 模型进行个性化创作。此外,Hotshot-XL 支持多种宽高比的 GIF 生成,从 320x768 到 768x320 的范围内都能产生高质量的结果。它被训练为生成每秒 8 帧的 GIF,时长为 1 秒,这个设置在保证动画流畅性的同时,也确保了足够的细节和清晰度。

Hotshot-XL 的强大功能不仅限于其技术性能,还在于其无需高性能显卡即可生成高质量 GIF 动画的能力,这使得创意媒体制作和广告等领域的应用更加广泛。通过结合最新的 AI 技术,Hotshot-XL 能够将文字描述转换为动态的 GIF 图像,并且这一过程涉及到复杂的图像处理算法以及对语言理解和视觉生成能力的深度融合。

Hotshot-XL 提供在线试用和本地部署选项,为用户提供灵活的使用体验。它集成了多种先进技术,旨在为用户提供便捷、高效的技术体验。总的来说,Hotshot-XL 在文本到 GIF 转换领域取得了重大突破,极大地推动了相关技术的发展.


zeroscope_v2


https://huggingface.co/cerspense/zeroscope_v2_576w

先进的开源AI模型,旨在将文本转换为高质量视频。该模型基于ModelScope开发,并在Hugging Face上开源。它包括两个主要版本:Zeroscope_v2和Zeroscope_v2 XL。Zeroscope_v2模型输出内容没有水印,优化了流畅度和平滑输出,特别适合生成16:9宽高比的高质量视频。

Zeroscope_v2 还可以通过与音乐生成工具MusicGen结合使用,快速制作纯原创短视频。它支持多种设置和超分辨率方法,用户可以根据需要进行调整和定制。

总体而言,Zeroscope_v2 提供了一个强大且灵活的平台,使用户能够以较低的成本利用现代图形卡实现高质量的文本到视频服务


I2VGen-XL(image-to-video)


I2VGen-XL (image-to-video / video-to-video)

https://modelscope.cn/models/damo/Image-to-Video/summary

I2VGen-XL是由阿里巴巴达摩院研发的一款图像到视频生成模型,旨在通过输入静态图像生成高质量的动态视频。该模型采用了创新的级联扩散方法,将文本和视频数据与视频结构解耦,并利用静态图像作为关键指导形式,确保了输入数据的对齐性。

I2VGen-XL的核心部分包含两个阶段:第一阶段(基础阶段)使用两个分层编码器来保证语义的一致性和保留输入图像的内容;第二阶段(细化阶段)则通过引入简短文本来增强视频的细节,并提高分辨率至1280×720。这种设计使得I2VGen-XL能够生成连贯且高质量的视频内容。

此外,I2VGen-XL还具备良好的泛化能力,经过大规模视频和图像数据混合预训练,并在少量精品数据上微调,从而能够在多种应用场景中表现出色。它已经被开源发布,并且可以在ModelScope平台上进行体验和使用。

I2VGen-XL不仅适用于短视频内容生产、电影制作等场景,还可以通过API接口在多个平台上运行,为用户提供便捷的视频生成服务。


text-to-video-synthesis-colab


text-to-video-synthesis-colab

https://github.com/camenduru/text-to-video-synthesis-colab

text-to-video-synthesis-colab 是一个开源项目,集成了多个文本到视频合成模型,如Longscope、Zeroscope和Potat1等。用户可以在Google Colab环境中通过输入文本生成短视频,支持多种分辨率和风格选择,并包含视频增强功能。该项目适用于多种创意和内容制作场景,为AI视频创作提供了便利。

该项目不仅支持文本到视频的生成,还提供了去除水印的功能。用户可以通过提供的教程轻松生成视频输出。此外,该项目还集成了其他模型,如Animov,每个模型都有其独特的特性和输出。

text-to-video-synthesis-colab 是一个多模型集成工具,适用于多种创意和内容制作场景,为AI视频创作提供了便利。用户可以在Google Colab环境中通过输入文本生成短视频,支持多种分辨率和风格选择,并包含视频增强功能。


VideoCrafter


VideoCrafter: A Toolkit for Text-to-Video Generation and Editing

https://github.com/AILab-CVC/VideoCrafter

VideoCrafter是一款由腾讯和中国香港科技大学合作开发并开源的视频生成和编辑工具箱,旨在为用户提供从文本到视频(T2V)以及图像到视频(I2V)的生成与编辑功能。该工具箱基于扩散模型,能够根据用户提供的文本描述生成高质量、连贯且具有专业品质的视频内容。

VideoCrafter目前包括三种主要模型:

  1. Base T2V:通用文本到视频生成:这一模型基于潜在视频扩散模型,可以合成逼真的视频内容。

  2. Image-to-Video (I2V):图像到视频生成:此模型能够生成与参考图像内容、结构和风格高度一致的视频。

  3. LoRA模型:支持对已有视频进行风格转换,类似于SD绘画的效果。

此外,VideoCrafter还提供了丰富的编辑功能,包括对象编辑、背景替换和风格转换等操作,使得即使没有视频编辑或动画经验的人也可以轻松制作出专业品质的视频。这些功能通过现代化的前端框架如React和WebGL构建,确保了流畅的用户体验和丰富的编辑功能。

总体而言,VideoCrafter不仅适用于初学者,也适合专业人士使用,提供全方位的视频制作支持。其开源特性进一步促进了技术社区的发展,并推动了更多创新应用的实现.


VideoCrafter


ModelScope (Text-to-video synthesis)

https://modelscope.cn/models/iic/text-to-video-synthesis/summary

ModelScope Text-to-video-synthesis Model(文本到视频合成)是一个由阿里巴巴达摩院开发的开源模型平台,专注于文本到视频的合成任务。该平台允许用户通过自然语言处理和机器学习技术,从文本描述生成视频内容。

ModelScope Text-to-video-synthesis Model 文本到视频合成工具能够将基于文本的脚本转换为视频,无需手动编辑,从而简化了视频创建过程。

ModelScope Text-to-video-synthesis Model 使用了一种基于diffusion的生成方法,可以从文本描述生成逼真的视频。

该模型包含三个部分:文本特征提取、特征转换为视频、视频转换为视觉表示。模型约有17亿个参数,能够处理英文输入。

ModelScope Text-to-video-synthesis Model 是一个开源平台,支持多种深度学习框架和模型,用户可以在阿里云上免安装运行和训练模型。



Diffusers


Diffusers (Text-to-video synthesis)

https://huggingface.co/docs/diffusers/main/en/api/pipelines/text_to_video#texttovideo-synthesis


Diffusers(文本到视频合成)是一种基于扩散模型的技术,旨在将文本描述转换为相应的视频内容。由多个子网络组成,包括文本特征提取、文本特征到视频隐空间的扩散模型,以及视频隐空间到视频视觉空间的转换模型。整体模型的参数规模较大,通常在数十亿级别。

技术实现上Diffusers 使用了一种称为 Unet3D 的扩散模型,这种模型能够处理视频数据的时间维度,从而生成具有时间一致性的视频。此外,Diffusers 还支持prompt输入,并且在多阶段文本到视频生成扩散模型中,输入一个描述文本后,模型会返回一个与文本描述相匹配的视频。

除了文本到视频的生成,Diffusers 还扩展到了文本到3D的生成模型,底层是OpenAI的Shap-E模型。Shap-E模型在大规模3D和文本数据对上进行训练,能够在编码器的输出层条件化一个扩散模型,从而生成3D内容。

在实际应用中,Diffusers 不仅限于生成图像和视频,还可以生成音频和分子的3D结构。这种多功能的生成能力使得Diffusers成为一个强大的工具,能够在推理时生成各种类型的数据。

随着技术的不断发展,Diffusers 也在不断进化。例如,2022年发布的Tune-a-Video模型利用了Stable Diffusion模型进行视频生成,而2023年发布的VideoFusion模型则通过分解扩散过程来解决每帧噪声问题,从而生成更平滑的视频输出。

未来,Diffusers 有望与虚拟现实(VR)和增强现实(AR)等新兴技术更紧密地结合,从而在VR或AR环境中动态生成和修改视频内容,增强沉浸式体验。


视频生成工具



VideoSys


Real-Time Video Generation with Pyramid Attention Broadcast

https://github.com/NUS-HPC-AI-Lab/VideoSys

VideoSys 是一个开源项目,旨在为视频生成提供用户友好且高性能的基础设施。它支持从训练和推理到服务和压缩的整个管道,并持续集成最新的模型和技术。

VideoSys 的应用场景非常广泛,包括实时视频生成、视频编辑和视频压缩等。这些功能使得它适用于需要快速生成高质量视频的应用场景,如直播和实时监控。此外,VideoSys 还计划扩展其功能,以支持更多的应用需求。

VideoSys支持多种开源模型,用户可以根据需求选择合适的模型进行集成。VideoSys也支持通过各种加速技术支持许多扩散模型,使这些模型运行得更快并消耗更少的内存,其中包括:

ideoSys 提供了一种易于部署的方式,例如通过 AutoDL 镜像一键部署到 Huggingface Space 或 Colab Space 中运行 CogVideoX-5B 模型。


CogVideoX

CogVideoX: Text-to-video generation

https://github.com/THUDM/CogVideo

CogVideoX 是模型由智谱 AI 开发,并于2024年8月6日开源发布的先进的文本到视频生成模型,旨在根据文本提示生成高质量、连贯的视频内容。

CogVideoX 的核心技术包括大规模扩散变换器和三维变分自编码器(3D VAE),这些技术使得模型能够有效地压缩视频数据并提高生成视频的质量和连贯性。此外,为了改善文本与视频之间的对齐问题,CogVideoX 引入了专家变换器,以增强模型在处理复杂动作和场景时的表现。

目前,CogVideoX 提供多个不同尺寸的版本,其中最初始版本为 CogVideoX-2B,它能够在FP-16精度下仅需18GB显存进行推理,并且其微调过程也相对高效。该模型支持生成长度为六秒的视频,分辨率为720*480,帧率为每秒八帧。

在性能方面,CogVideoX 在多个基准测试中表现优异,优于其他知名竞争对手如 VideoCrafter-2.0 和 OpenSora。研究人员还指出,该模型在机器和人类评估中均显著超越了所有公开可用的模型。


视频增强及生成



VEnhancer


VEnhancer: Generative Space-Time Enhancement for Video Generation

https://vchitect.github.io/VEnhancer-project/

VEnhancer 是一种生成性时空视频增强框架,旨在通过在空间域添加更多细节和在时间域合成详细运动来改善现有的文本到视频(text-to-video)结果。该技术特别适用于提升低质量视频的分辨率和质量,同时解决常见的模糊和闪烁问题。

VEnhancer 使用一种专门的时空视频模型,能够同时提高视频的空间和时间分辨率,并且可以对任意尺度进行上采样。这种能力使得它在视频超分辨率和时空超分辨率方面超越了现有的最先进方法。此外,VEnhancer 已经开源,其代码和模型均可供公众使用,这进一步推动了其在视频生成领域的应用和发展。

在实际应用中,VEnhancer 能够生成高清、流畅的视频,支持高达2K分辨率和24fps的规格。它不仅提高了视频的质量,还增强了视频内容的表现力,使其更加符合用户的期望和需求。总的来说,VEnhancer 在AI视频生成领域展现了强大的潜力和广泛的应用前景。


长视频生成技术



FreeLong


FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention (Aug., 2024)

https://yulu.net.cn/freelong/

FreeLong是一种无需训练的长视频生成方法,其核心是SpectralBlend Temporal Attention(光谱混合时序注意力)。该方法通过将全局视频特征的低频成分与局部视频特征的高频成分进行融合来实现一致性和高保真度的视频生成。这种方法在2024年被提出,并且在多个学术平台和报告中得到了关注和讨论。

FreeLong框架利用了光谱混合时序注意力机制,有效地结合了全局和局部视频特征,从而提高了生成视频的质量和一致性。此外,该方法避免了传统长视频生成任务中需要大量计算和资源消耗的训练过程,使得生成过程更加高效和便捷。


视频风格转换工具



Live2Diff


Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

https://live2diff.github.io/

Live2Diff 是一种基于视频扩散模型的实时流翻译工具,其主要特点在于采用了单向时间注意力机制。这种机制使得该系统能够在不依赖未来帧的情况下,通过将当前帧与其前置帧及初始预热帧进行关联,确保每一帧视频都能保持高度的一致性和平滑性。

Live2Diff 的设计目标是解决直播视频翻译中的实时性和流畅性问题。与以往的技术相比,它通过结合多时间步KV缓存和深度先验技术,实现了高效的视频处理能力,并支持DreamBooth和LoRA风格迁移。此外,该系统还利用了TensorRT来优化性能,使其在RTX 4090 GPU上能够达到每秒16帧的处理速度。


Video Diffusion


Video Diffusion Alignment via Reward Gradient

https://vader-vid.github.io/

https://huggingface.co/spaces/zheyangqin/VADER

Video Diffusion Alignment via Reward Gradients是在通过奖励梯度来优化现有的视频扩散模型。这种方法不仅提高了生成视频的质量,还增加了其多样性和创意性。

该方法的核心思想是利用各种奖励模型对视频扩散模型进行微调,从而实现计算和样本效率上的高效对齐。这些奖励模型包含关于生成的RGB像素的密集梯度信息,这对于复杂搜索空间(例如视频)中的高效学习至关重要。通过将这些奖励模型的梯度反向传播至视频扩散模型,能够显著提高在奖励查询和计算效率上的表现。

VADER支持多种主流的视频扩散模型,如VideoCrafter、OpenSora、ModelScope和StableVideoDiffusion等,并且可以使用各种奖励模型(如HPS、PickScore等)进行调整和对齐。实验结果表明,相较于以往的无梯度方法,这种方法在奖励查询和计算效率上更为高效。


人体动作视频生成



MinicMotion


MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidancehttps://tencent.github.io/MimicMotion/

MimicMotion是由腾讯公司和上海交通大学联合开发的一款创新的高质量人体动作视频生成框架。该框架利用置信度感知的姿态引导技术,确保生成的视频帧具有高质量和时间上的平滑过渡。

在技术层面,MimicMotion采用了先进的图像到视频的扩散模型,并结合了时空U-Net和PoseNet,以实现对特定运动指导的模仿。此外,它还引入了基于姿势信心的区域性损失放大策略,显著减少了图像失真,提升了人像手部动作的细节表现。

MimicMotion的一个重要特点是其“置信度感知的姿态引导”(confidence-aware pose guidance),这一技术不仅提高了视频的时间平滑性和模型鲁棒性,还能通过区域损失放大和渐进式潜在融合策略有效解决图像失真问题。这种技术使得MimicMotion能够在任何动作引导下生成任意长度的高质量视频。

为了进一步提升用户体验,腾讯还开源了MimicMotion框架,使其可以被广泛应用于各种场景中,如AI艺术创作、虚拟角色动画制作等。通过这种方式,MimicMotion不仅推动了视频生成技术的发展,也为相关领域的应用提供了新的可能性。


图像泄露优化模型



cond-image-leak


Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model

https://cond-image-leak.github.io/

《Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model》是一篇于2024年6月21日发表的论文,探讨了图像到视频扩散模型(I2V-DMs)中的一个重大但之前被忽视的问题——条件图像泄露。该问题指的是在生成过程中,I2V-DMs过度依赖输入的条件图像,而忽略了从噪声输入中预测干净视频的关键任务,导致生成的视频缺乏动态感和生动的运动效果。

简单接好一些图像泄漏问题,图像泄漏问题在扩散模型中指的是在训练和推理过程中由于噪声分布的差异导致的偏差,从而影响生成图像的质量。具体来说,在训练过程中,扩散模型使用噪声来生成初始潜变量,而在推理过程中,模型被输入白噪声作为初始潜变量。这种差异会导致训练分布和推理分布之间的偏差,从而影响最终生成的图像质量。

在图像到视频扩散模型中,信号泄漏问题同样存对生成的视频帧质量有显著影响。例如,Stable Diffusion模型在经过特定风格的微调后,生成的图像与该风格的颜色或背景不匹配,甚至无法生成纯黑色的图像。这主要是因为信号泄漏偏差导致了亮度和颜色的不均匀性。

为了解决这一问题,Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model论文提出了两种解决方案:一种是使用训练无关的推理策略,从早期时间步开始生成视频以避免不可靠的后期时间步;另一种是在训练过程中使用时间依赖的噪声分布。此外,研究团队还开发了适用于多种模型(如DynamiCrafter、SVD和VideoCrafter1)的即插即用推理和训练策略,这些策略减轻了模型对条件图像的过度依赖,并增强了生成视频的动态效果。

扫码关注更多AI资讯

我们一起学AI



同桌的AI小纸条
一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用,探索人工智能领域的无限可能,并征服他们,让AI赋能生活快乐每一天!
 最新文章