Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

科技 2024-12-12 16:45 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

论文地址: https://arxiv.org/abs/2412.07730
Hugging Face link: https://huggingface.co/papers/2412.07730

OpenAI 的 Sora 公布了一天之后，在一篇由多位作者署名的论文《STIV: Scalable Text and Image Conditioned Video Generation》中，苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 8.7B 参数的支持文本、图像条件的视频生成模型。

近年来，视频生成领域取得了显著进展，尤其是基于 Diffusion Transformer (DiT) 架构的视频生成模型 Sora 的推出。尽管研究者已在如何将文本及其他条件融入 DiT 架构方面进行了广泛探索，如 PixArt-Alpha 使用跨注意力机制，SD3 将文本与噪声块拼接并通过 MMDiT 模块应用自注意力等，但纯文本驱动的视频生成（T2V）在生成连贯、真实视频方面仍面临挑战。为此，文本 - 图像到视频（TI2V）任务被提出，通过加入初始图像帧作为参考，提供了更具约束性的生成基础。

当前主要挑战在于如何将图像条件高效地融入 DiT 架构，同时在模型稳定性和大规模训练效率方面仍需创新。为解决这些问题，我们提出了一个全面、透明的白皮书，涵盖了模型结构，训练策略，数据和下游应用，统一了T2V和TI2V任务。

基于以上问题，该工作的贡献与亮点主要集中在：

提出 STIV 模型，实现 T2V 和 TI2V 任务的统一处理，并通过 JIT-CFG 显著提升生成质量；
系统性研究包括 T2I、T2V 和 TI2V 模型的架构设计、高效稳定的训练技术，以及渐进式训练策略；
模型易于训练且适配性强，可扩展至视频预测、帧插值和长视频生成等任务；
实验结果展示了 STIV 在 VBench 基准数据集上的优势，包括详细的消融实验和对比分析。

该研究不仅提升了视频生成质量，还为视频生成模型在未来多种应用场景中的推广奠定了坚实基础。

构建 STIV 的配方解析

基础模型架构

STIV 基于 PixArt-Alpha 架构，通过冻结的变分自编码器（VAE）将输入帧转换为时空潜变量，并使用可学习的 DiT 块进行处理。文本输入由 T5 分词器和内部训练的 CLIP 文本编码器处理。此外，该研究还对架构进行了以下优化：

时空注意力分解：采用分解的时空注意力机制，分别处理空间和时间维度的特征，这使得模型能够复用 T2I 模型的权重，同时降低了计算复杂度。
条件嵌入：通过对图像分辨率、裁剪坐标、采样间隔和帧数等元信息进行嵌入，并结合扩散步长和文本嵌入，生成一个统一的条件向量，应用于注意力层和前馈网络。
旋转位置编码（RoPE）：利用 RoPE 提升模型处理时空相对关系的能力，适配不同分辨率的生成任务。
流匹配目标：采用流匹配（Flow Matching）训练目标，以更优的条件最优传输策略替代传统扩散损失，提升生成质量。

模型扩展与训练优化

稳定训练策略：通过在注意力机制中应用 QK-Norm 和 sandwich-norm，以及对每层的多头注意力（MHA）和前馈网络（FFN）进行归一化，显著提升了模型训练稳定性。
高效训练改进：借鉴 MaskDiT 方法，对 50% 的空间 token 进行随机掩码处理以减少计算量，并切换优化器至 AdaFactor，同时使用梯度检查点技术显著降低内存需求，支持更大规模模型的训练。

融合图像条件的方法

简单的帧替换方法

在训练过程中，我们将第一个帧的噪声潜变量替换为图像条件的无噪声潜变量，然后将这些潜变量传递到 STIV 模块中，并屏蔽掉被替换帧的损失。在推理阶段，我们在每次扩散步骤中使用原始图像条件的无噪声潜变量作为第一个帧的潜变量。

帧替换策略为 STIV 的多种应用扩展提供了灵活性。例如，当 c_I (condition of image)=∅ 时，模型默认执行文本到视频（T2V）生成。而当 c_I 为初始帧时，模型则转换为典型的文本-图像到视频（TI2V）生成。此外，如果提供多个帧作为 c_I，即使没有 c_T (condition of text)，也可以用于视频预测。同时，如果将首尾帧作为 c_I提供，模型可以学习帧插值，并生成首尾帧之间的中间帧。进一步结合 T2V 和帧插值，还可以生成长时视频：T2V 用于生成关键帧，而帧插值则填补每对连续关键帧之间的中间帧。最终，通过随机选择适当的条件策略，可以训练出一个能够执行所有任务的统一模型。

图像条件随机丢弃

如前所述，帧替换策略为训练不同类型的模型提供了高度灵活性。我们在此展示其具体应用，即同时训练模型以执行文本到视频（T2V）和文本 - 图像到视频（TI2V）任务。在训练过程中，我们随机丢弃图像条件 cI 和文本条件 cT，类似于 T2V 模型中仅对文本条件随机丢弃的方式。

联合图像 - 文本无分类器引导（JIT-CFG）

无分类器引导（Classifier-Free Guidance, CFG）在文本到图像生成中表现出色，可以通过将概率质量引导到高似然区域来显著提升生成质量。在此基础上，我们提出了联合图像 - 文本无分类器引导（JIT-CFG），同时利用文本和图像条件进行引导，其速度估计公式为：

其中 s 为引导比例。当 c_I=∅ 时，该方法退化为标准的 T2V 无分类器引导。尽管可以像 InstructPix2Pix 所述引入两个独立的引导比例，以平衡图像和文本条件的强度，我们发现两步推理方法已经能够取得优异效果。此外，使用两个引导比例会增加一次前向传递，从而提高推理成本。

实验证明图像条件随机丢弃结合 JIT-CFG 不仅能自然地实现多任务训练，还有效解决了高分辨率视频生成模型训练的 “静止” 问题。我们推测，图像条件随机丢弃可以防止模型过度依赖图像条件，从而更好地捕捉视频训练数据中的运动信息。

渐进式训练策略

我们采用渐进式训练策略，其流程如图 4 所示。首先训练一个文本到图像（T2I）模型，用以初始化文本到视频（T2V）模型；随后，T2V 模型用于初始化 STIV 模型。为快速适应高分辨率和长时训练，我们在空间和时间维度中加入了插值的 RoPE 嵌入，并利用低分辨率、短时长模型的权重进行初始化。值得注意的是，高分辨率 T2V 模型同时结合了高分辨率 T2I 模型和低分辨率 T2V 模型的权重进行初始化。

数据

视频预处理和特征提取细节

为了确保高质量的输入数据，我们首先解决了原始视频中不一致的动作以及诸如切换和渐变之类的不必要过渡问题。利用 PySceneDetect，我们对视频帧进行分析，识别并分割出包含突兀过渡或渐变的场景。这一过程剔除了不一致的片段，确保视频片段在视觉上保持一致性，从而减少伪影并提升整体质量。随后，我们提取了一系列初始特征用于后续筛选，包括运动分数、美学分数、文本区域、帧高度、帧宽度、清晰度分数、时间一致性以及视频方向等。

视频字幕生成与分类细节

视频 - 文本对在训练文本到视频生成模型中起着至关重要的作用。然而，许多视频数据集缺乏高质量的对齐字幕，并且通常包含噪声或不相关内容。为此，我们在数据处理流程中引入了一个额外的视频字幕生成模块，用于生成全面的文本描述。

我们主要探索了两种方向：(1) 抽样少量帧，应用图像字幕生成器生成字幕后，再使用大型语言模型（LLM）对生成的字幕进行总结；(2) 直接使用视频专用的 LLM 生成字幕。

在初步尝试了第一种方法后，我们发现两个主要局限性：一是图像字幕生成器只能捕捉单帧的视觉细节，导致缺乏对视频动作的描述；二是 LLM 在基于多帧字幕生成密集描述时可能会出现虚构现象（hallucination）。

近期研究使用 GPT 家族模型创建微调数据集并训练视频 LLM。为了在大规模字幕生成中平衡质量和成本，我们选择了一种高效的视频字幕生成器。随后，我们使用 LLM 对生成的字幕进行分类，并统计视频的类别分布。

DSG-Video: 虚构检测评估

为了比较不同字幕生成技术，我们开发了一个评估模块，用于评估字幕的丰富度和准确性。

我们通过测量字幕中提及的唯一对象的多样性来量化字幕的丰富度，并通过检测虚构对象来评估准确性。

受文本到图像评估方法的启发，我们提出了 DSG-Video，用于验证字幕中提到的对象是否真实出现在视频内容中。

1. 首先，我们利用 LLM 自动生成针对字幕关键细节的问题，例如对象的身份、动作和上下文。

举例来说，给定一段提到 “沙发上坐着一只猫” 的字幕，LLM 会生成问题，比如 “视频中是否有一只猫？” 以及 “猫是否在沙发上？”

2. 然后，我们使用多模态 LLM 回答这些对象验证问题，通过评估视频中多个均匀采样帧的每个参考对象的存在情况。

对于每个生成的问题（例如，“该帧中是否有猫？”），多模态 LLM 检查每个采样帧并提供响应。如果对于某个问题，所有帧的响应都表明对象不存在，则我们将其分类为虚构对象。

这一方法确保了对视频中每个对象的逐帧验证。基于此，我们定义了两个评估指标：

DSG-Video_i：虚构对象实例的比例（即提到的所有对象中被检测为虚构的比例）；
DSG-Video_s：包含虚构对象的句子的比例（即所有句子中含虚构对象的比例）。

结果

基于上述研究，我们将 T2V 和 STIV 模型从 600M 参数扩展到 8.7B。

主要结果展示在表格中，与最新的开源和闭源模型对比后，证明了我们方法的有效性。具体而言，我们基于 Panda-70M 数据集中的 20,000 条经过筛选的视频，使用预训练的视频生成模型进行了微调（SFT）。在预训练阶段采用了 MaskDiT 技术后，我们尝试对模型进行无掩码方式的微调（UnmaskSFT）。此外，我们还对 STIV 模型进行了时间插值微调，以提升生成视频的运动平滑度（+TUP）。

T2V 性能

表格列出了不同 T2V 模型在 VBench 上的对比结果，包括 VBench-Quality、VBench-Semantic 和 VBench-Total 分数。分析表明，扩展 T2V 模型的参数能够提升语义理解能力。具体来说，当模型从 XL 增加到 XXL 和 M 时（三种模型尺度），VBench-Semantic 分数从 72.5 提升到 72.7，最终达到 74.8。这表明更大的模型在捕获语义信息方面表现更好。然而，对于视频质量的影响相对有限，VBench-Quality 仅从 80.7 提升至 82.1。这一发现表明，模型参数扩展对语义能力的提升大于对视频质量的影响。此外，将空间分辨率从 256 提升到 512 时，VBench-Semantic 分数显著提高，从 74.8 上升到 77.0。

SFT 的影响

通过高质量的 SFT 数据微调模型，可以显著提升 VBench-Quality 分数，从 82.2 提升到 83.9。在无掩码条件下对模型进行微调时，语义分数略有提升。我们的最佳模型实现了 79.5 的 VBench-Semantic 分数，超越了 KLING、PIKA 和 Gen-3 等领先的闭源模型。结合时间插值技术后，我们的模型在质量评分方面超越了所有其他模型，达到了最新的行业标准。

TI2V 性能

如表中所示，我们的模型在与最新方法的对比中表现出色。分析表明，尽管模型参数扩展提升了 I2V 分数，但对质量的影响较小。相比之下，提高分辨率能够显著改善质量和 I2V 分数。这一趋势表明，分辨率的提高对于提升多任务生成能力尤为关键。完整的分解维度结果见文章附录。

应用

视频预测

我们从 STIV-XXL 模型出发，训练一个以前四帧为条件的文本 - 视频到视频模型（STIV-V2V）。实验结果表明，在 MSRVTT 测试集和 MovieGen Bench 上，视频到视频模型的 FVD 分数显著低于文本到视频模型。这表明视频到视频模型在生成高保真和一致性视频帧方面表现出色，尤其适用于自动驾驶和嵌入式 AI 等需要高质量生成的领域。

帧插值

我们提出了 STIV-TUP，一个时间插值模型，以 STIV-XL 为初始模型，并在具有时间间隔的连续帧上进行训练，同时添加文本条件。实验表明，STIV 可以在文本和图像条件下进行高质量的帧插值，并且在 MSRVTT 测试集中，使用文本条件稍微优于其他条件。此外，我们将时间插值器与主模型级联，发现这种方法能够提升生成质量，同时保持其他指标稳定。

多视角生成

多视角生成旨在从给定的输入图像创建新视角。这项任务对视角一致性要求较高，依赖于良好预训练的视频生成模型。通过将视频生成模型适配为多视角生成，我们可以验证预训练是否有效捕获了 3D 信息，从而提升生成效果。

我们使用某些新视角相机的定义，并以初始帧为给定图像，预测接下来的新视角帧。通过训练一个 TI2V 模型并调整分辨率和训练步数，我们实现了与现有方法相当的表现，同时验证了我们的时空注意力机制在保持 3D 一致性方面的有效性。

长视频生成

我们开发了一种高效生成长视频的分层框架，包括两种模式的训练：(1) 关键帧预测，学习以较大时间间隔采样的帧；(2) 插值帧生成，通过学习连续帧，并将首尾帧作为条件。在采样阶段，首先使用关键帧预测模式生成关键帧，再通过插值模式生成中间帧，从而实现长视频生成。

更多关于模型结构、图像条件融合方法，训练策略的各种消融实验以及其他研究细节，请参考原论文。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉