备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
最近多模态大型语言模型(MLLMs)的先进发展,为视频理解开辟了新的途径。然而,在零样本视频任务中实现高保真度仍然具有挑战性。
传统的视频处理方法严重依赖微调以捕捉细腻的空间-时间细节,这导致数据和计算成本巨大。相比之下,无训练方法虽然高效,但在保留复杂视频内容中的上下文丰富特征方面往往缺乏鲁棒性。
因此,作者提出了一种新颖的动态 Token 合并框架,用于零样本视频理解,该框架在适应性优化 Token 效率的同时,保持关键场景细节。该框架将层次化帧选择和二分 Token 合并策略相结合,动态聚类关键帧并选择性地压缩 Token 序列,在计算效率与语义丰富性之间取得了平衡。
在多个基准测试上的广泛实验表明,与微调和无训练方法相比,该方法实现了优越的性能,并创下了零样本视频理解的新最先进水平。
1 Introduction
近年来,视频理解取得了显著进展,这主要得益于多模态大型语言模型(MLLMs)的快速发展。传统的视频理解方法通常依赖于特定的训练,将视频帧与自然语言对齐,利用空间-时间线索在视频序列之间构建连贯的故事 [2, 19, 20]。相比之下,基于MLLM的方法提供了一个更灵活和泛化的框架,在预训练阶段融合了多个数据模态的多样化开放世界知识 。通过利用这种预训练知识,MLLM可以动态地适应各种任务,如字幕生成 [39],问答 [11],检索 [9],以及针对各种视频内容进行零样本或少样本推理 [5]。基于MLLM的视频理解方法通常分为两类:一类需要领域特定的微调 ,另一类则是完全不需要训练 [6, 12, 31, 35]。
许多时候,这些方法在准确性和效率之间存在权衡。尽管微调模型通常通过调整其能力以适应特定任务来获得更高的准确性,但这需要大量的 Token 数据和增加的计算资源。相比之下,无训练方法更有效率和灵活,利用预训练MLLMs的泛化能力进行零样本推理。然而,在某些设置中,可能需要更深入的理解,如特定的推理任务或不同的视频类型,因此在这些设置中,平衡这些权衡仍是一个关键的挑战,以推进基于MLLM的视频理解。
尽管零样本学习方法具有零成本适应性的显著优势,但在不进行特定微调或逐帧标注的情况下,保留帧间关键的空间-时间细节是一个核心挑战。现有工作经常在保留语义丰富性和保持计算效率之间做出权衡。例如,许多方法减少帧数并执行激进的分词池化,这可能会失去在上下文中具有重要意义的帧或捕捉微妙动作的视觉分词。因此,现有方法难以在适应视频内容的时间复杂性变化的同时,在保持语义忠实度和提高分词效率之间达到平衡。
为此,作者提出了DvTo,一种新颖的Dvnamic Token合并方法,该方法利用层次帧选择和细粒度二分Token压缩方法。DvTo在有效保留关键空间-时间信息的同时,显著减少了Token的冗余。具体来说,作者的方法在层次时间尺度上动态聚类关键帧,使其能够适应性捕捉关键事件,而无需使用刚性的采样策略。此外,通过实现二分Token合并机制,作者根据每个帧的语义内容优化Token计数,在计算限制下支持更丰富的视频表示。
通过采用这种动态、自适应的框架,DvTo在零样本视频理解方面取得了优越性能,超过了微调模型和其他无训练方法。本文的贡献包括:
一种新颖的分级二分合并策略,该策略动态地选择关键帧并执行自适应 Token 合并,以优化时空保真度和在扩展帧序列中实现更精细的特征保留。
综合多个基准的全面评估,展示了DvTo在理解和计算效率方面均优于现有方法,包括既定模型微调方法,也包括无训练方法。
2 Related Work
Video Large Language Models
近年来,视频语言模型取得了显著的进步。VideoCatGPT[1]从每一帧中获取特征,并使用空间和时间池化两种操作进行结合,然后将它们输入大型语言模型。LLaMA-VID[17] 利用双 Token 方法有效地压缩视频 Token ,通过区分上下文和内容。Vista-LLaMA[21]提出了EDVT-Attention以及一个强调视觉 Token 而减少时间 Token 的连续视觉 Projector 。
Video-LLaVA[18]在图像和视频编码器之前对它们进行对齐,使得它们可以在图像和视频任务上共享投影和联合训练,从而映射到语言空间。VideoChat[15]利用交叉注意力压缩视频 Token 、用户 Query 和会话上下文。Video-LLaMA[38]引入了Video Q-Former和Audio Q-Former,允许在视频理解中集成多个模态。相比之下,Video-LLaMA2[7]设计了一个空间-时间卷积连接器来替代Q-Former进行空间-时间表示学习。Chat-UniVi[10]开发了一个用于图像和视频的统一模型,使用动态 Token 合并和k-NN来简化空间和时间 Token 。SeViLA[36]专注于检测和提取与 Query 相关的关键帧,并分析视频,通过将这些关键帧转换为视频 Token 。
Training-free Video LLMs
近期研究探索并证明了图像语言模型(Image LLMs)在视频理解场景下无需额外微调即可应用。FreeVA [31] 探索了影响视频理解性能的不同空间-时间池化策略和来自闭源 GPT 评估的版本。 IG-VLM [12] 设计了图像网格格式,并将多个视频帧组装成图像,然后将其发送到图像语言模型。SlowFast-LLaVA [35](简称 SF-LLaVA)引入了一种新的融合技术,用于短期与长期采样以及各种池化策略。
这些方法在各种视频基准测试上取得了有前途的结果,但它们有两个主要局限性。首先,它们都将以固定长度统一采样视频帧,作为视频的表示。这种方法在视频中不可避免地丢失了重要的事件信息。尽管 SF-LLaVA 比其他方法采样了更长的序列,但其设计使用少量 Token 无法捕捉到每帧丰富的空间信息。此外,所采用的平均或最大池化方法无法充分保留动作在时间维度上的显著变化。在本文中,作者提出了一种新的方法,可以动态选择帧并合并视觉 Token ,使作者能够全面且高效地捕捉到每个视频的完整语义信息。作者还扩展了采样视频帧序列到100或更多帧,以提高在较长视频理解任务上的性能。
3 Method
为了减少在分词压缩过程中关键信息的损失,作者引入了一种分层二分图合并机制。首先,对于一个均匀采样N帧的视频,视频帧由视觉编码器分别编码,生成视觉 Token 。这些 Token 随后由 Token 聚合模块处理,从粗粒度特征转换到细粒度特征。
Coarse-grained Hierarchical Clustering
对于视频的第N帧 Token 序列,其中,作者定义一个有向图,其中C是节点集(即需要聚类的点),边E连接特征空间中的节点。以前的研究表明,深度层倾向于在图像中[14, 26]聚合全局语义,因此作者收集每个的[CLS] Token ,并将其作为视频的压缩表示。时间戳定义为。作者通过计算帧与帧之间的特征空间距离并调整它们以表示时间位置来构建。
和 分别表示 [CLS] Token Embedding 。内积在 L2 正则化特征向量上计算,以保持距离在 [0, 1] 范围内。 作为基于序列长度的加权机制。最后,作者通过保留每个节点最接近的节点并设置其他边为零来构建 1-NN 图。
1-NN时序图定义了一个邻接矩阵,其中每个节点根据时间加权距离与最近邻居相连。通过设置使链接对称,以编码空间-时间距离,并形成便于聚类的连通分量。等式2中的图的连通分量自动将数据聚类。当只剩下一个聚类时,作者递归地根据特征的聚类平均值合并这些聚类,并选择第二个最大的聚类进行视频分割。作者用表示聚类中的帧的索引集。因此,第个聚类内的帧可以表示为:
作者对每个聚类中的帧进行均匀采样,并将其组合为关键帧序列 ,其中 是聚类的数量。聚类可以提供当前视频序列中包含的事件的分布,从而指导后续步骤的细粒度合并。
Fine-grained Dynamic Bipartite Merging
之前的[12, 31, 35]方法要么简单地将帧连接起来并为VLM设计 Prompt ,要么对每个图像 Token 使用池化方法构建视频表示。为提出一种新颖的方法,有效构建从选定帧中选取的视频表示。
在通过之前描述的方法获取帧序列的分割后,作者实现了一种动态二分 Token 合并方法,该方法灵感来源于ToMe[3],以最小化视觉 Token 的数量。对于中的每个单独帧,作者依次将 Token 分成两个非重叠 Token 集,其中包含 Token ,,其中包含 Token ,在每一步中,初始。作者将用于动态合并图像以在固定视觉 Token 长度下保留更多 Token 。为了获得相似度得分,每个视觉 Token 在通道维度上分成个头,每个头具有个通道。对于每个 Token 对,相似度得分通过应用公式(4)对所有头求平均余弦相似度得分得到。
其中, 和 分别表示集合 和 中第 个 Patch 特征 的索引和第 个视觉 Token 的索引。作者选择相似度得分最高的 Top- 个 Token 对并通过池化组合匹配 Token 。最后,将两个集合中剩余的 Token 合并在一起,形成 个 Token ,经过第 步后完成。最后,作者将从 到 的视频特征进行高效编码,以减少原始视觉 Token 序列中的冗余。
4 Experiment
为了评估DyTo,作者使用了超过10个基准测试,这些测试涵盖了方法在结构化和开放式视频问答(VQA)方面的能力,特别是使用了多项选择和GPT辅助的基准测试。
Evaluation Benchmarks
结构化的VQA基准测试。对于结构化的VQA,作者在一系列多种选择题基准测试上评估DyTo,包括NextQA [32]、VideoMME [8]、EgoSchema [24]、STAR [30]和IntentQA [13],这些测试都旨在量化模型在预定义选项中选择正确答案的准确性。这些基准测试共同为DyTo提供了全面的评估,以解释复杂的、多模态数据,并在任务结构的不同 Level 上生成准确、上下文丰富的响应。此外,作者在VideoMME [8]基准测试的"无子"配置下进行了实验,该配置限制了访问字幕,从而隔离了模型在视频理解中依赖视觉和时间线索的能力。
开放式VQA基准测试。对于开放式VQA任务,作者在MSVD-QA[4]、MSRVTT-QA[33]、TGIF-QA[16]和ActivityNet-QA[37]基准测试上评估DyTo的零样本性能。这些基准测试要求模型自主生成自由形式回答,模拟实际世界的问题回答情境,需要对视频内容进行细腻的理解。
与先前的方法一致,作者使用视频GPT生成基准测试22作为评估文本生成能力的主要基准,评估包括信息正确性(CI)、细节导向性(DO)、上下文理解(CU)、时间理解(TU)和一致性(CO)在内的五个关键维度。遵循Wu[31]的研究,作者使用 GPT-3.5-Turbo-0125 以确保与其他方法的公平比较。
Experimental Setup
实现细节。所有评估可以在单个Nvidia A100 80G显卡上进行。为了加速推理,作者使用配备8张Nvidia A100 80G显卡的Linux服务器。DyTo基于LLaVACXT模型系列,预训练权重可在HuggingFace1上找到。作者实现了旋转位置嵌入(RoPE)并应用一个缩放因子2,将原始上下文长度从4096扩展到8192个 Token 。
输入视频和模型设置。在作者的方法中,作者统一地将每个视频样本到N=100帧。每帧都进行重新缩放,以匹配视觉编码器的输入尺寸,然后输出24×24+[CLS]视觉 Token 加上一个[CLS] Token 。
遵循Sarfraz等人[27]的做法,作者将[CLS] Token 作为每帧的粗粒度特征,然后使用N次 层次聚类 (SS3.1)将序列分为K个簇。
由于硬件限制,作者将视觉 Token 序列长度 设置为 3680 或 7200,分别对应模型大小为 7B 和 34B。为了在控制 Token 冗余的同时优化特征表示,作者使用 动态调整合并比例。此外,作者将头数 设置为 16,与 CLIP-VIT/L 相匹配。根据 Wu [31] 和 Xu 等人 [35] 的研究,作者在第一轮固定初始合并比例 ,以确保在整个序列上实现最佳性能。
Main Results
结构化的VQA基准测试。如表1所示,DyTo在各种基准测试中始终优于多个微调模型和无训练模型,包括ExTQA [32],VideoMME [8],EgoSchema [24],STAR [30],以及IntentQA [13]。值得注意的是,DyTo展示了其在多样化视频理解环境中的适应性,即使与使用广泛微调的模型相比,也实现了优越的准确率。例如,在NExTQA上,DyTo达到了65.7%的准确率,刷新了最先进性能。同样,EgoSchema,IntentQA,STAR和VideoMME上的性能也说明了DyTo在处理视频内容中的特定任务推理的有效性,通常在这些需要精细的时间和上下文理解的场景中保持准确性优势。
作者的实验表明,层次聚类和二分合并策略对它的准确性有显著贡献。聚类方法在保留语义丰富性的同时捕获帧间关键事件,支持无计算开销的健壮性问题回答性能。此外,提出的动态 Token 合并方法在保留关键上下文信息方面优于传统池化方法,这可能导致过度简化 Token 表示,从而可能失去对准确响应选择至关重要的动作细节。
开放式VQA基准测试。在开放式设置中,如表2所示,DyTo展示了强大的零样本学习能力。它在包括MSVD-QA [4]、MSRVTT-QA [33]、TGIF-QA [16]和ActivityNet-QA [37]等基准测试中,始终优于现有方法。此外,DyTo在VideoCatGPT [22]上表现尤为出色,甚至超过了需要微调的方法,这突显了其在零样本设置下的鲁棒性。DyTo在不进行微调的情况下,仍能保持高精度,这进一步证明了其适应性框架在处理开放式、真实世界VQA任务方面的强大能力,实现了在正确性、上下文理解和时间理解等维度的高分。
5 Analysis
Scaling Up Model Sizes
如图3所示,显著扩大模型大小可以显著提升DyTo在结构化VQA任务上的性能,这在表1中显示的7B性能上有显著提升。具体而言,当模型大小达到34B时,DyTo在NExTQA[32]上的准确率提高了7.2%,在EgoSchema[24]上的准确率提高了8.2%,在STAR[30]上的准确率提高了7.9%。这些更显著的提升反映了该方法在捕捉和推理复杂时空交互上的增强能力,尤其是在需要细微语境理解的任务中。
与其他在340亿参数下的无训练方法相比,DyTo在各项基准测试中始终优于IG-VLM [12]和SlowFast-LLaVA [35],在如VideoMME [8]等任务上具有准确性优势。这表明所提出的层次聚类和二分 Token 合并机制在利用额外模型容量保留关键语义信息方面特别有效,即使没有微调也是如此。
在表4中展示的开放式VQA任务中,作者的34B模型在表2中的7B模型之上,强调了作者的方法的扩展性。例如,DyTo在正确性和上下文理解维度上实现了2.3点的平均提升,同时还在细节方向和时间理解方面取得了改进。这些收益进一步突出了DyTo自适应框架的健壮性,该框架可以有效地与模型大小扩展,为各种VQA基准测试提供更多上下文丰富和时间准确的回答。
作者分析了DyTo在不同的视频长度下的性能,以更好地展示其健壮性,特别是在保持较长视频的准确性方面。如图3_左_所示,尽管DyTo的性能在视频长度增加时会有些下降,但下降幅度是有限的。图4:视频上的采样方法和聚类模块输出可视化。作者的方法提供的视频表示帧比其他方法更全面。
与其他方法(如 IG-VLM [12] 和 SlowFast-LLaVA [35])相比,DyTo 的稳定性显著降低。这主要归因于 DyTo 的自适应、视频相关的动态 Token 合并,这有效地优先考虑了关键帧和上下文 Token ,即使在视频序列变长时也能保留关键信息。
在图3_右_, 作者进一步研究了增加采样帧数对扩展视频性能的影响。随着采样帧数的增加,DyTo在较长视频上的准确性显著提高,这表明它比竞争方法更有效地捕捉到详细的时序和上下文信息。这种改进突显了DyTo的分层聚类和半分 Token 合并的优势,它们能够动态地调整到代表关键时刻的采样帧,以确保对视频的更全面和准确的理解。
这表明在不同的视频长度下具有强大的泛化能力,加强了DyTo在管理多样化内容规模时不会出现显著的准确性损失或需要微调的优势。
Visualizations of Hierarchical Clustering
为了进一步说明DyTo在采样和分割方面的改进,图4展示了作者方法得到的聚类输出以及其他方法,包括IG-VLM [12]和SlowFast-LLaVA [35]。通过匈牙利匹配映射视频事件,作者证明DyTo在准确捕捉和分割所有关键事件(无遗漏)方面具有明显优势。与IG-VLM和SlowFast-LLaVA不同,它们可能由于未从这些关键帧中采样而错过某些事件(例如IG-VLM完全遗漏了视频的第一帧),DyTo可靠地识别每个段的时空边界,从而允许精确的关键帧选择。
具体来说,尽管SlowFast-LLaVA通过以粗粒度的 Token (如图4中较小的红点所示)采样50帧作为快速部分输入,试图减轻这一限制,但其主要性能仍然严重依赖于携带主要时间负荷的10帧(慢速部分)[35]。此外,图5中,每种颜色代表在时间上划分的不同事件,突显了DyTo的聚类自然地将视频内容以时间一致的方式组织。这有助于DyTo在关键帧选择上实现更高的保真度,使其更适合需要全面、针对性的视频理解的场景。
Visualizations of Dynamic Bipartite Merging
为了有效地理解动态 Token 合并的有效性,作者提供了一种可视化方法,将作者的方法与池化方法进行比较。如图6所示,所提出的方法在保持目标的动作的同时,竭力防止原始空间信息的破坏。作者将常数合并比例r=288设置为方便与池化方法进行比较,而r是DyTo中的动态整数值,其值会根据聚类的数量而变化。重要的是要强调,作者提出的 Token 合并方法无需任何标签即可运行。为了创建图6中的可视化,作者跟随每个最终合并的 Token 回溯到其原始输入块。对于每个 Token ,作者使用该区域的平均颜色为其相应的输入块着色,称为"Patchified",以保证不同 Token 的区分。为了确保不同 Token 可区分开来,作者为每个 Token 分配一个随机的边框颜色。需要注意的是, Token 不一定对应连续的输入区域。空间信息仅来自位置编码。
Qualitative Case Study
图9从NExTQA基准测试中提供了一个定性说明,展示了DyTo在复杂零样本视频理解场景中的强大性能。在这个实例中,DyTo准确地识别并保留了关键的视觉细节,如婴儿车上的红色玩具,孩子的服装,以及建筑背景。由于简单的统一采样和池化方法,IG-VLM和SlowFast-LLaVA都输出了幻觉内容(分别背着书包和拿着一碗麦片)。与这些方法不同,DyTo捕捉到了细微的视觉线索和上下文元素。DyTo的分层聚类,该策略动态地分割视频帧,以及其二分合并策略,避免过度压缩可能导致语义损失,导致对场景理解的更详细和准确。
6 Conclusion and Future Work
在本文中,我们介绍了DYTO,这是一个专为零样本视频理解中的动态令牌合并而设计的无需训练的框架。通过分层帧选择和二分图令牌合并的新颖组合,DYTO在保持语义丰富性的同时,解决了提高计算效率的挑战。
实验结果证明,DYTO在多个结构化和开放式视频问答(VQA)基准测试中实现了最先进的性能,超过了微调和其他无需训练的模型。
通过根据帧内容动态调整令牌粒度,DYTO成功地捕捉了关键的空间-时间细节,提供了一个可扩展的解决方案,能够适应不同视频长度和复杂性的需求。
DYTO不仅在零样本视频任务中设定了新的标准,而且为更高效和具有上下文感知能力的视频理解铺平了道路。
未来的工作可能会探索将DYTO扩展到增强令牌适应性,以适用于实时应用,进一步推动无需训练的视频理解的发展。
参考文献
[0]. Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding.