苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

科技 2024-12-12 23:49 北京

论文题目：

STIV: Scalable Text and Image Conditioned Video Generation

论文链接：

https://arxiv.org/abs/2412.07730

引言

近年来，视频生成领域取得了显著的进展，特别是在基于多种条件的生成技术方面。然而，目前的研究仍面临许多挑战，包括如何更有效地整合模型架构、训练策略和数据整理技巧来提升视频生成的质量。尤其是，针对文本到视频（T2V）和图像-文本到视频（TI2V）任务的单一模型尚未得到充分开发。

在此背景下，研究者提出了一种新的框架——STIV（可扩展的文本与图像条件视频生成），以期为视频生成的研究提供一种系统的方法。STIV框架的目标是通过整合图像条件和文本条件，构建一个既可以完成T2V任务，又能处理TI2V任务的统一模型，从而为视频生成的多样化和精确性提供支持。通过对不同架构和策略的系统性分析，STIV框架旨在提高生成视频的质量和一致性。

本节的重点在于明确引入STIV框架的动机与目标，综述了当前在视频生成领域的主要技术进展，以及如何应对这些现存的挑战。图1展示了STIV与现有最先进模型在视频生成任务中的性能比较，为后续章节的讨论奠定基础。

▲ 图1. STIV模型与当前最先进模型在视频生成任务中的性能对比

STIV框架的基本组成

在本节中，将详细解读STIV（Scalable Text and Image Conditioned Video Generation）框架的基本模型架构，强调其核心组件，并说明如何通过帧替换实现图像条件的整合，以及如何使用联合图像-文本条件下的分类器无关引导（JIT-CFG）。

2.1 基础模型架构

STIV模型基于PixArt 架构，利用一个被冻结的变分自编码器（VAE）将输入帧转换为空间和时间潜在嵌入。这些嵌入随后由一系列可学习的类似于Diffusion Transformer（DiT）块进行处理。为了处理文本提示，STIV使用T5 tokenizer和内部训练的CLIP文本编码器。

▲ STIV框架整体结构

2.2 空间-时间注意力

STIV模型采用了分解的空间-时间注意力机制，通过将时间维度折叠到批处理维度，首先对空间标记执行空间自注意力计算，然后将输出重新排列，折叠空间维度进行时间标记的自注意力计算。这样做不仅有助于有效预加载来自文本到图像（T2I）模型的权重，也保持了对视频各帧的信息处理。

2.3 单例条件

STIV模型使用原始图像分辨率、裁剪坐标、采样步幅和帧数作为微观条件，以编码训练数据的元信息。通过一个正弦嵌入层将这些属性进行编码，接着通过多层感知机（MLP）将其投影到d维嵌入空间。

这些微观条件嵌入连同扩散时间步嵌入和来自CLIP模型最后一层的文本标记嵌入相加，形成一个单例条件。这一单例条件用于生成共享的尺度-偏移-门参数，这些参数将在每个Transformer层的空间注意力和前馈层中使用。

2.4 旋转位置嵌入

STIV模型采用旋转位置嵌入（RoPE），以增强模型在处理相对时间和空间关系的能力。RoPE不仅能与高计算应用中使用的掩蔽方法兼容，而且在分辨率变化时具有高度适应性。在分解的空间-时间注意力中，STIV分别对空间注意力应用二维RoPE，对时间注意力应用一维RoPE。

2.5 流动匹配

与传统的扩散损失不同，STIV选择使用流动匹配（Flow Matching）训练目标，该目标定义了来源分布与目标分布之间的条件最优传输。在此情况下，假设源分布为高斯分布，并使用线性插值实现目标匹配。训练目标可被形式化为：

其中，速度向量场为。在推理阶段，STIV通过从时间步0到1求解对应的逆向时序随机微分方程（SDE）来从随机采样的高斯噪声中生成图像。

2.6 帧替换与图像条件

在训练过程中，STIV通过将无噪声的图像条件潜在表示替换掉带噪声的第一帧潜在表示，从而实现图像条件的整合。此替换操作在推理时使用原始图像条件的无噪声潜在表示作为每个TI2V扩散步骤的第一帧。

这两个步骤极大地提升了模型的灵活性。例如，在没有图像条件的情况下，模型默认进行文本到视频（T2V）生成；而提供图像条件则转为文本-图像到视频（TI2V）生成。进一步提供多个帧作为图像条件则可以实现视频预测，甚至在提供首帧和末帧的情况下执行帧插值。

2.7 联合图像-文本条件下的分类器无关引导（JIT-CFG）

在训练时进行图像条件的随机丢弃，并结合JIT-CFG方法，不仅使STIV能够展开多任务学习，还有效地缓解了高分辨率TI2V模型中的过拟合问题。JIT-CFG依据随机模态的引导，将有效的速度估计进行修正，以实现更高的生成质量。

综合来看，STIV框架的设计通过诸多独特的策略和结构，使得模型能够高效而灵活地应对多种视频生成任务，并为今后的研究提供了丰富的思路与基础。

模型架构与训练策略

在STIV框架中，模型架构与训练策略的设计是提升视频生成质量与效率的关键。研究者们在设计STIV模型时，注重结合各种稳定性技术、训练流程的优化以及模型规模的调整，以便在资源受限的情况下实现较高的性能。

3.1 模型架构设计

STIV模型主要基于PixArt 模型，其将输入帧转换为空间和时间的潜在嵌入。通过使用预训练的变分自编码器（VAE），这些嵌入随后被馈入一系列可学习的DiT样块。为了整合文本条件，STIV采用了T5令牌化器和内部训练的CLIP文本编码器，以便处理文本提示。模型总体框架如图4所示。

3.2 稳定性技术

为了解决训练过程中出现的不稳定性问题，研究者们采用了多种技术来提升训练的稳定性。例如，QK-norm的应用有效地稳定了查询和键向量的计算，从而提高了注意力的效果。此外，采用沙拉技术（Sandwich-Norm）结合无状态层归一化，可以保证STIV块内的每一层具有更稳定的性能表现。通过将这些技术与模型设计相结合，可以有效提升较大模型的训练效率。

3.3 训练过程与渐进式训练

为了应对资源占用的问题，STIV框架采用了渐进式训练的方法。首先，研究者从文本到图像（T2I）模型开始训练，该模型然后作为初始化基础，接下来训练文本到视频（T2V）模型。T2V模型又进一步用于初始化STIV模型，同时实现高分辨率和长时间生成的快速适应。采用插值的RoPE嵌入，可以在空间和时间维度上快速提高训练质量。

3.4 资源优化

为了确保较高的训练效率，STIV模型还进行了内存使用的优化。研究者们采用了AdaFactor优化器来替代传统的AdamW，这样不仅有助于提高训练速度，还有助于降低内存占用。随机掩码操作（MaskDiT）在训练的初期阶段确保了模型的高效性，进一步在训练过程中增加了模型的稳定性与性能。

通过上述设计与策略的综合应用，使得STIV模型能够在多种生成任务中表现出优秀的性能。进一步的研究和实验将会有助于揭示模型架构的深层次潜力，以及在视频生成领域的广阔应用前景。

数据处理与评估

在视频生成模型的训练过程中，数据的质量及处理方式对于模型表现具有至关重要的影响。本节将探讨STIV框架中视频数据引擎的构建，特别是数据预处理、特征提取以及数据过滤对模型性能的影响。

4.1 视频数据引擎的构建

为提升数据集的质量，STIV框架引入了一个全面的视频数据引擎，该引擎专注于以下几个关键问题：

如何对原始视频进行预处理以提高一致性?
数据过滤对模型性能的影响?
如何通过先进的视频标注技术减少幻觉现象并改善结果?

在该框架下，STIV采用了Panda-70M作为工作示例，生成了一个经过筛选的子集——Panda-30M。

4.2 视频预处理与特征提取

在预处理阶段，STIV使用了Py Scene Detect算法来去除突变和不一致的片段，从而生成更加连贯的剪辑。通过视频分割，66个不同类型的特征被提取，包括但不限于运动分数、美学分数、文本区域、帧尺寸、清晰度分数、时间一致性和视频方向等。这些关键特征为接下来的数据过滤提供了依据，以确保所处理的数据集的多样性和质量。

4.3 数据过滤对模型性能的影响

为了进一步提高训练数据的有效性，STIV框架实施了数据过滤策略，旨在降低数据集中的噪声和幻觉现象。通过处理和准备不同训练阶段所需的数据集，STIV有效提升了模型的学习效率和生成能力。高度质量的数据可以确保模型在学习过程中的有效性，进而提升最终生成视频的质量。

4.4 实验评估的指标

为全面评估模型性能，STIV框架采用了一系列指标进行定量分析，包括视频的时间质量和语义一致性。这些评估指标将模型生成的视频与输入要求进行对比，确保生成内容的高质量和一致性。总评分综合考虑视频生成质量和语义对齐程度，确保模型能够在多种场景中展现优异的性能。

通过一系列严格的数据处理和评估标准，STIV框架确保生成的视频不仅在技术上实现了创新，更在艺术表现和内容一致性上达到了高标准。这为后续的实验和模型优化奠定了坚实的基础。

实验与结果分析

在本节中，研究团队展示了STIV（可扩展的文本和图像条件视频生成）模型在多种视频生成任务（如文本到视频 T2V 和图像文本到视频 TI2V）上的实验结果。通过对不同设计选择的综合分析，本文探讨了这些选择对模型性能的显著影响，并提供了对生成视频质量的深入评估。

研究团队首先在VBench平台上进行评估，该平台提供了多个性能指标，主要包括视频的时间质量和语义一致性。实验的设置和结果如图所示（见图 1）：

5.1 T2V与TI2V任务的表现对比

在文本到视频（T2V）任务中，STIV模型实现了优异的性能，其最高评分达到了83.1，超越了当前领先的开源和闭源模型（如CogVideoX-5B、Pika、Kling和Gen-3）。与此同时，STIV在图像文本到视频（TI2V）任务中也表现出色，其最佳模型在VBench I2V任务中取得了90.1的国家最佳成绩。这些结果突显了模型在处理多任务上的能力，表明STIV能够有效地集成文本和图像条件，从而增强生成视频的质量。

5.2 生成视频质量的综合评估

为进一步分析生成视频的质量，研究团队重点关注了视频的时间质量和语义一致性等指标。结果表明，尽管STIV的设计较为简单，但其在视频生成的各个维度上均有所提升。具体而言，通过使用联合图像文本条件下的无分类器引导（JIT-CFG），STIV解决了模型静态帧的问题，使得在TI2V任务中生成的视频呈现出更高的动态度和流畅性。

研究团队还强调了不同设计选择对软件表现的影响。例如，帧替换策略和图像条件失活方法的结合显著提高了模型的多任务学习能力，并保持了高水平的生成质量。同时，使用逐层穷举和随机失活策略不仅提高了训练的稳定性，还丰富了生成视频的多样性。

5.3 定量与定性的结果分析

在定量分析中，STIV模型表现出色的同时，研究团队还注重于定性结果，提供了多种生成示例以供参考。这些示例包括不同主题和背景下的生成视频，以证明该模型在多样化视频生成任务中的有效性。在大多数生成样本中，视频均表现出较高的一致性和连续性，反映出STIV在处理复杂运动场景和多变环境时的卓越能力。

总体而言，研究结果清晰地表明了STIV模型作为一个单一模型同时处理T2V和TI2V任务的潜力，提供了一个透明且可扩展的构建视频生成解决方案的框架，为未来的研究和应用开辟了新的方向。

未来的研究方向

在本文中，STIV框架的提出为视频生成领域的研究提供了一种新颖且有效的方法。随着模型在T2V和TI2V任务上的性能显著提高，研究人员可以进一步拓展STIV框架的适用性，以应对更多复杂的视频生成挑战。

首先，未来的研究可以聚焦于如何将STIV应用于更广泛的上下文中，例如，将其集成到多模态学习框架内，利用额外的数据源（如声音、文本摘要等）来增强生成视频的表现。通过引入声音和棋牌游戏生成的元素，STIV可以生成更为细致、可交互的视频内容，为用户提供沉浸式体验。

此外，STIV框架的模型架构和训练策略为进一步提高生成视频的质量与多样性提供了基础。未来研究可以探索如何结合更先进的深度学习技术，例如自监督学习与强化学习，以改善模型在复杂场景下的表现。通过应用自监督技术，模型可以在无标注数据环境下进行训练，进而提高在实际应用中的鲁棒性和适应性。

进一步地，未来的研究可以着眼于模型的压缩和加速问题。随着视频生成模型的规模不断增大，如何在保证生成质量的前提下降低模型的计算资源需求将成为一个重要挑战。研究人员可以探索模型蒸馏、剪枝等方法，以提高STIV在移动设备或实时应用中的可用性。

最后，STIV框架在可解释性上的提升也是一个重要的研究方向。通过探索生成过程中各个环节（如图像条件和文本条件之间的相互作用），研究人员可以更好地理解模型的决策过程，从而提升模型的透明度和信任度。这种可解释性的提高不仅对于模型本身的优化至关重要，同时也为用户提供了更多对生成结果的直观理解。

综上所述，STIV框架在视频生成领域的应用前景广阔，未来的研究将能够推动其进一步的改进与创新，促进视频处理技术的整体进步。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉