点击上方蓝字关注我们
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment
作者列表:
Fei, Hao, Wu, Shengqiong, Zhang, Meishan, Zhang, Min, Chua, Tat-Seng and Yan, Shuicheng
论文链接:
https://arxiv.org/abs/2406.19255
团队单位:新加坡国立大学等
简介
尽管目前大规模视频-语言模型(Video-LLMs)在各种任务上展现出巨大的潜力,但这些模型通常也会受限于一些常见的问题,包括:粗糙的跨模态对齐、时序动态建模不足和视频-语言视图的不一致性。来自新加坡国立大学的团队提出了一种名为Finsta的细粒度时空对齐学习方法,通过使用场景图结构来细致表示文本和视频,并将其统一到整体跨模态场景图以强化模态间的桥接。此外,本工作还引入了基于图Transformer的框架和一种循环图Transformer,以模拟空间和时间特征编码,并执行对象中心的空间对齐与谓词中心的时间对齐,从而提高了模型在空间和时间维度上的精确性。Finsta被设计为一种插即用的系统,可集成至现有Video-LLMs上以增强性能,且无需重训练或依赖特定数据集注释。在12个数据集上的测试表明,Finsta显著提升了13个主流VLMs的性能,并刷新了多个视频-语言任务的最佳成绩。
1 研究背景和动机
大语言模型(LLM)在多模态数据(如文本、图像和视频)上的预训练表现出巨大潜力,特别是视频-语言模型(Video-LLM)受到越来越多关注。与传统视觉-文本建模主要关注静态图像的视觉语义不同,视频理解需要同时处理空间语义和时间动态。为了发展有效的Video-LLMs,已经在推动视频-语言(VL)任务方面做了大量工作。尽管取得了一些进展,现有Video-LLMs仍面临诸如视频与文本模态异质性等关键问题,这些问题可能会限制下游VL任务的性能,阻碍其达到最佳状态。
当前的Video-LLMs面临几个主要挑战:首先,它们在跨模态对齐时通常只能实现粗糙对齐,由于视频与文本在信息密度上的不平等,导致在细节上的匹配不足,如视频描述生成的字幕可能缺乏具体细节。其次,现有研究往往未能充分建模视频的时间动态,导致在时间定位任务中无法精确匹配视频内容与文本描述。最后,VLMs通常未能利用视频和语言之间的差异和互补信息,尤其在需要深入推理的场景如视频问答中,这种差异本可以增强模型的理解能力。这些问题共同限制了VLMs在复杂多模态任务中的表现。
作者提出,为全面理解视频-语言,必须使用细粒度的结构化表示,类似于人类在进行VL推理前对潜在语义结构的把握。本研究中,使用场景图(SG)来细粒度地表示视频和文本内容。通过对现有文本SG(TSG)的修改添加谓词属性节点,以及通过在视频的动态SG(DSG)间创建时间核心引用边,实现了视频与文本之间的跨模态核心对齐,形成整体的HSG。此外,开发了一个名为Finsta的框架,采用双流求和架构和图Transformer技术,进行高度并行的图编码和时空特征传播,有效地加强了空间和时间维度上的视频-语言对齐。这种方法设计为即插即用系统,可集成至现有VLMs中,无需重新训练,即可增强模型表现。
2 贡献
这项工作的主要贡献如下:
这是第一个基于场景图表示,全面增强视频-语言表示学习,通过结构化细粒度时空对齐学习的工作。
基于GTrm,我们设计了一种新颖的R-GTrm模型,用于视频的空间-时间特征编码。我们进一步提出了STGD-GTrm,以加强对物体在空间和时间维度上变化的感知,区分移动或静止的节点。
提出了一种新颖的高阶以对象为中心的空间对比和高阶以谓词为中心的时间对比学习策略,实现细粒度的时空跨模态对齐。
本文方法在广泛的下游VL理解任务中,经验性地提升了当前最先进的VLMs。此外,我们的框架被设计为一个即插即用模块,可以轻松应用于许多现有的VLMs。
3 模型与方法
3.1 场景图构建
动态场景图(DSG):DSG描述视频为一系列时间连续的场景图(SGs),每个SG包括对象、属性和关系节点。为解决每帧视频维护一个视觉SG带来的内容冗余和高计算成本问题,我们首先通过基于聚类的方法提取关键帧,这种方法在适当的采样率下能保持重要事件内容,同时记录每帧的原始时间戳以保留关键时间信息。这些关键帧之后被用于生成每个帧的静态视觉SG。在实践中,我们采用FasterRCNN作为对象检测器,获取对象节点及其神经表示、Visual Genome(VG)数据集中的类别标签和边界框。关系节点通过使用MOTIFS关系分类器生成,属性节点则通过属性分类器。所有节点通过边连接。为了将这些分散的SG整合为一个连贯的结构,我们创建了跨SG帧的时间核心引用边,即通过比较同一对象标签的两个对象边界框的交集比率(IoU)来实现对象跟踪。
文本场景图(TSG):TSG和DSG的主要区别在于,TSG只有一个图帧,而DSG是时间连续的多个帧。与视觉SG类似,TSG也包括对象、属性和关系节点,其中对象是文本实体,每个对象都有描述其属性的附加属性。视觉SG中的对象节点对应图像,TSG中的对象节点则是文本标签。不同类型的节点通过边连接,关系可以是静态的(如“在...里面”)或动态谓词(如“喝”、“坐在...上”)。然而,原始TSG未能处理动态谓词的状语修饰语,导致关键信息的丢失。为解决这一问题,我们引入了谓词的动态属性节点来支持状语修饰语。在实践中,通过现有的TSG解析器可以生成文本的TSG,并通过改进的解析器保留状语信息,使TSG能够更加准确地反映谓词的属性。
全局场景图(HSG):在处理文本-视频配对时,我们的目标是确保它们的语义内容高度一致,同时认识到两种模态间不可避免的差异。为了有效利用文本和视频的独特信息并提供一个全面的多模态视图,我们考虑将它们融合。技术上,一旦有了匹配的TSG和DSG,我们通过创建跨模态核心引用边来统一这两种视图。这些边使得TSG中的文本对象能与DSG中对应的视觉对象相连。具体而言,我们使用CLIP编码器来评估TSG的文本标签与DSG的视觉表示及其视觉对象标签之间的语义相似性,从而确保两种模态之间有效的语义匹配。
3.2 Finsta:细粒度结构化时空对齐框架
图Transformer(GTrm)的空间编码器:在处理TSG(文本场景图)的细粒度空间性时,我们选择使用图变换器(Graph Transformer,简称GTrm)来模拟TSG。图变换器比一般的图神经网络(GNN)具有更优的性能,尤其在图拓扑建模和变换器架构的高并行计算能力方面。GTrm包含多个堆叠层,每个层都专注于更新节点的表示。具体来说,在GTrm的第l层,节点vi的表示hl_i会根据特定的更新规则进行刷新,从而更精确地捕捉和表达TSG中的空间关系和属性。这样的技术进步确保了对文本描述的场景细节能够被精确且高效地建模和转换。
循环图Transformer(R-GTrm)的时空编码器:DSG与单帧的TSG不同之处在于它包含了时间动态性。为了有效地模拟这种动态性,我们设计了一种创新的递归图变换器(Recursive Graph Transformer, 简称R-GTrm),其设计灵感来源于传统的递归网络。R-GTrm在GTrm的节点传播基础上进行改进,通过利用DSG中的时间核心引用边来跟踪和模型时间上的对象。这种方法允许R-GTrm捕捉视频数据中随时间变化的动态特性,从而为视频场景中的对象提供一个连续且结构化的时间序列表示。具体的实现细节和公式可以在相关论文中找到,详见图3(b)的说明。这种模型的设计使其能够有效处理视频内容的时间相关性,为复杂的视频理解任务提供支持。
时空高斯差分图变换器(STGD-GTrm):尽管R-GTrm提供了时间序列的对象跟踪能力,但它在感知对象在空间位置上的变化方面还不够充分,特别是在区分运动中的对象和静止对象(即前景与背景)这一关键视频动态建模步骤上。为了解决这一问题,我们基于R-GTrm进一步开发了时空高斯差分图变换器(STGD-GTrm)。这种新型变换器的关键思想是增强图变换器对对象在空间和时间维度上变化的感知能力。STGD-GTrm通过利用高斯差分核来测量并表达对象在连续帧之间的空间位置变化。这种方法不仅能捕捉到对象位置的微小变化,还能在图变换器中编码对象的移动强度,从而有效地区分移动和静止对象。在图4中,我们展示了这种高斯差分方法如何描绘任意对象在两个连续帧(或关键帧)之间的变化强度,这是通过计算两帧间对象位置变化的分布密度来实现的。这种高级建模能力使得STGD-GTrm成为理解和分析视频内容中对象动态的强大工具。我们观察到,对象在视频中的时空变化往往表现出一定的高斯分布特征。具体来说,移动较快的对象在其能量分布上通常显示出更大且更尖锐的峰值,而移动较慢或静止的对象的能量则显得较为平缓,强度较低。基于这一观察,我们提出使用高斯分布来建模DSG或HSG中图节点的时空差异。这种方法允许我们通过分析高斯分布的参数—如均值和标准差—来量化和表征每个对象节点在时间序列中的移动特性。通过在图节点上应用高斯模型来跟踪时空差异,我们能够精确地捕捉和分析对象从一帧到另一帧的变化程度和速度。这不仅有助于更深入地理解视频内容的动态特性,还能在实际应用中提供关于对象行为的重要信息,例如在视频监控、动态场景分析和交互式媒体中的应用。
3.3 视频-语言表示学习
通过Finsta框架学习的细粒度结构特征,我们能够执行表示学习,从而增强现有视频-语言模型(VLM)的视频-语言(VL)表示能力。下面,我们将首先详细介绍跨模态对齐学习的过程,然后说明如何将Finsta应用于现有的VLM。
细粒度结构化时空对齐学习:在视频-语言(VL)对齐学习中,我们区分了空间性和时间性视角的学习过程,旨在实现更精细的对齐。空间性视角侧重于静态对象级的细粒度语义匹配,而时间性视角则集中于动态动作级的细粒度语义匹配。这两个过程主要在DSG(动态场景图)和TSG(文本场景图)的编码模块之间进行,学习得到的特征随后会通过特征注入和初始化过程传播到HSG(整体场景图)编码器中。
以对象为中心的高阶空间对比学习(OSC):
我们的目标是使TSG中的对象节点在DSG中找到其正确的视觉对应物。采用对比学习策略,拉近语义相似的节点对,推开不相似的。对比学习不仅限于单个对象,而是扩展到以对象为中心的高阶区域匹配,其中包括对象的属性和关系上下文。这种高阶邻域匹配使得当文本对象和视觉对象及其相关上下文都对齐时,两者的相似性增强。在实际操作中,我们遍历TSG对象的n阶邻居,通过池化操作获得该区域的综合表示,对DSG对象执行相同操作,然后计算这两个区域表示之间的二分图相似性。
以谓词为中心的高阶时间对比学习(PTC):
空间对比学习虽然重要,但单独并不足以捕捉所有必要的动态信息,特别是那些涉及动态行为的场景。因此,我们采用以谓词为中心的时间对比学习,其目的是将TSG中的文本谓词与DSG中的动态动作正确匹配。类似于OSC,我们首先在TSG中找到以谓词为中心的n阶邻居区域,然后对DSG进行相应操作,并对DSG的时间序列进行切片,以匹配具体的时间间隔。最终,取这些区域特征的池化表示作为DSG的候选匹配对象,完成PTC学习过程。
这种综合的学习方法不仅增强了模型的空间和时间维度的语义理解能力,也使模型能够在处理复杂的视频和语言任务时,展现更好的性能和适应性。
表征迁移学习:通过Finsta框架的对齐学习,文本和视频的TSG和DSG表示能够实现较好的匹配,这有望显著改善下游视频-语言(VL)任务的性能。然而,直接使用Finsta作为视频-语言模型(VLM)存在一些挑战。首先,Finsta的功能高度依赖于场景图(SG)的注释,为所有数据生成SG标签可能会引入噪声,并降低应用效率。此外,从头开始训练一个完整的VLM与Finsta需要大量的视频-语言对,这在资源和实际操作上是不可行的。为解决这些问题,我们设计Finsta作为一个即插即用模块,通过在已有VLM中注入对齐良好的VL特征表示,来提高模型性能。这种设计允许Finsta与任何具备类似双流架构的现有VLM结合使用,通过预热(pre-warming)的方式来提高效率。技术实现方面,我们采用知识蒸馏(Knowledge Distillation, KD)方法将Finsta的高级特征集成到主机VLM中。在Finsta传递信息之前,我们先将主机VLM的文本、视频和多模态编码器的初级层表示作为SG建模的初始特征,这些初级层特征被视为已对齐的视觉-语言嵌入。然后,Finsta在SG数据上执行特征传播,得到最终的对齐良好的时空VL特征,这些特征通过KD方法蒸馏回主机VLM,以学习与Finsta中的细粒度时空对齐特征相似的编码特征。我们预期host VLM具备与Finsta相同的架构,即包含文本编码器、视频编码器和跨模态编码器。虽然完全一致的架构是理想的,但并非严格必要。尽管大多数现有VLMs遵循“文本-视频-多模态”编码的标准模式,但也有一些VLM不具备严格的双流总和架构。在这种情况下,Finsta还可以操作,只是不将特征蒸馏到主机VLM中缺失的编码器部分,虽然这可能会在一定程度上影响Finsta的效果。这些情况将在实验部分进行具体分析和讨论。
4 实验结果
4.1 主实验结果
作者对Finsta的性能进行了广泛评估,涵盖了各种视频-语言(VL)任务,这些任务包括从视频到文本的转换(如视频动作识别和视频描述),从文本到视频的转换(如视频-文本检索),以及VL协作任务(如视频问答)。此外,Finsta还被测试在更具挑战性的场景中,如长视频-文本理解任务(例如,长视频问答和视频-段落检索)。这些测试旨在展示Finsta在处理从基本到复杂多样的VL任务时的效能和适应性,证明其在多种场景下都能提供有效的性能提升。
4.2 实验分析
作者在进一步的研究中分析了Finsta在解决视频-语言模型(VLM)中存在的一些核心问题及其各个组件的效果和效率,主要围绕以下五个研究问题(RQ)进行。这些深入分析旨在全面评估Finsta的能力和潜力,提供科学和实践上的洞见,帮助进一步优化和应用该框架于更广泛的视频-语言处理相关研究。
RQ-1: Finsta是否真正解决了VLMs的瓶颈问题?
这个问题旨在验证Finsta是否能够有效地解决传统VLM在处理复杂视频-语言任务时遇到的限制,特别是在精细的时空对齐和跨模态理解方面。
RQ-2: 每个模块对整体Finsta的贡献有多大?
通过消融研究,分析Finsta中不同模块(如TSG和DSG编码器、知识蒸馏组件等)的具体贡献,以明确每个部分的重要性和作用。
RQ-3: 影响Finsta性能的因素有哪些?
探讨不同因素如超参数设置、后训练数据量以及SG解析质量如何影响Finsta的性能。这有助于理解模型敏感性和优化方向。
RQ-4: Finsta的计算效率如何?
评估Finsta在实际部署时的计算效率,包括训练时间、推理速度和资源消耗,这对于实际应用的可行性评估至关重要。
RQ-5: Finsta如何取得更好的进展?
通过案例研究和可视化,展示Finsta在特定视频-语言任务中的应用结果和改进过程,从实际case出发,展示其优势和潜力。
5 总结
在这项研究中,作者开发了一个名为Finsta的细粒度结构化时空对齐学习框架,旨在增强现有的视频-语言大模型(Video-LLMs)。Finsta通过整合文本场景图(TSG)和动态场景图(DSG)到一个统一的整体场景图(HSG)中,使用图Transformer(GTrm)对TSG进行编码,同时采用新型循环图Transformer(R-GTrm)对DSG和HSG进行空间-时间特征传播。此外,引入时空高斯差分图Transformer(STGD-GTrm)以提升对物体在空间和时间维度变化的感知。Finsta还执行了以对象为中心的空间对比(OSC)和以谓词为中心的时间对比(PTC)对齐,以优化视频-语言定位。该系统被设计为即插即用模块,便于集成进现有VLMs以增强其性能。在12个数据集上的6个VL建模任务中的实验显示,Finsta显著提升了顶尖VLMs的性能,并在微调和零样本设置中实现了突破性进展。
致谢作者,本文系论文作者原创,已获得独家授权,转载请注明出处
关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
ECCV 2024|多模态学习不鲁棒?表示解耦打造稳健多模态学习新纪元
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习
CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!