TPAMI 2024 | 通过结构化时空对齐增强视频-语言表示

文摘   2024-10-16 19:01   辽宁  

点击下方“计算机书童”卡片,每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目:Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

通过结构化时空对齐增强视频-语言表示

作者:Hao Fei; Shengqiong Wu; Meishan Zhang; Min Zhang; Tat-Seng Chua; Shuicheng Yan


摘要

尽管大规模视频-语言模型(VLMs)的预训练在各种下游视频-语言任务中显示出了巨大的潜力,但现有的VLMs仍然存在一些常见限制,例如粗糙的跨模态对齐、时间动态建模不足、视频-语言视图的脱节。在本工作中,我们提出了一种细粒度结构化时空对齐学习方法(即Finsta),以增强VLMs。首先,我们用细粒度的场景图(SG)结构来表示输入的文本和视频,两者进一步统一到一个整体的场景图(HSG)中,以桥接两种模态。然后,构建了一个基于SG的框架,其中文本SG(TSG)通过图Transformer编码,而视频动态SG(DSG)和HSG则通过一种新颖的循环图Transformer来建模空间和时间特征传播。此外,我们还设计了一种时空高斯差分图Transformer(STGD-GTrm),以加强对对象在空间和时间维度上变化的感知。接下来,基于TSG和DSG的细粒度结构特征,我们分别执行以对象为中心的空间对齐和以谓词为中心的时间对齐,增强了视频-语言在空间性和时间性上的定位。我们将我们的方法设计为一个即插即用系统,可以集成到现有的训练有素的VLMs中,以进一步增强表示,无需从头开始训练或依赖于下游应用中的SG注释。在标准和长视频场景的12个数据集上的6个代表性VL建模任务中,Finsta持续改进了现有的13个表现强劲的VLMs,并在微调和零样本设置中显著刷新了当前的最佳任务性能。

关键词

视频-语言理解,结构化语义学习,时空定位,场景图

1 引言

最近,大规模语言模型(LLM)在多模态数据(例如文本、图像和视频)上的预训练显示出了引导人类级智能的惊人潜力,例如GPT4 [1]、PaLM-E [2]、BLIP-2 [3]、Flamingo [4]、LLaVA [5]。在这些模型中,视频-语言模型(VLM)预训练受到了越来越多的研究关注 [6]、[7]、[8]、[9]、[10]。与主要关注个体视觉语义理解的视觉-文本建模相比,视频理解超越了静态图像,要求同时理解空间语义和时间动态,这是由于视频随时间连续帧的本质。为了学习有效的VLMs,已经做出了广泛的努力,并促进了一系列下游视频-语言(VL)任务 [11]。

尽管取得了有希望的进展,现有的VLMs仍然可能受到视频-文本模态异质性所固有的某些共同但关键问题的影响。因此,下游VL任务的性能可能仍然受到阻碍,无法实现最优。

首先,现有的VLMs通常执行粗糙的跨模态对齐。先前的工作广泛地在整体视频和文本表示之间进行对齐 [12]、[13],或提取帧块 [14]、[15]。然而,这两种模态在携带信息上是不平等的,例如,文本是有限的和简洁的,而视频包含密集的多余内容,这不可避免地导致了在使用粗粒度方式时的低效对齐。例如,在视频描述任务中,这可能导致生成的字幕缺乏足够的细节。如图 1 所示,视频和文本之间的对应关系实际上可以是细粒度的,即感兴趣对象的核心指代。

其次,现有的研究通常对视频的时间动态建模不足。语言使用抽象词汇(例如,谓词和副词修饰语)来表达复杂动作;而视频则通过连续帧中特定场景的动态变化来描述事件。例如,在图 1 中,文本动作 ‘sit down on’ 是通过视频中该男子对象的跟踪过程来描绘的。这表明需要一个精细的运动级对齐来建模视频-文本数据的时间动态对应关系。不幸的是,现有研究大多采取了直接的视频时间性建模方式,即通过整体帧上的时间注意力或池化 [16]、[17]。因此,例如,在需要建模时间动态的视频时间定位任务中,VLMs在将文本内容与相应的视频时间内容准确匹配方面大多失败。

最后,现有的VLMs通常忽略了视频和语言视图之间的差异和互补信息。虽然两种模态带有共享特征,但也可以有丰富的差异化信息。直观上,文本提供抽象表达(例如,情感和感觉),而视频是视觉感知信号(例如,颜色和外观)。这种区别可以为整体多模态语义理解起到互补作用。然而,现有工作将重点完全放在VL对齐上,同时将未对齐的特征部分视为噪声,并在没有建模的情况下积极丢弃它们。在推理密集型场景中,例如视频问答,VLMs无法充分利用两种模态共享和互补的信息进行深入推理。

我们认为,细粒度结构化表示对于全面理解VL至关重要,正如我们人类在进行VL推理之前总是先把握潜在的语义结构。在这项工作中,我们考虑使用场景图(SG)表示来表示输入的视频和文本。如图 1 所示,通过使用结构化模态不可知表示,SG能够使VL学习进行细粒度控制。基于SG表示,我们进一步进行了一些定制,以用于我们的目的。首先,我们略微修改了现有的文本SG(TSG)定义 [20],通过添加谓词属性节点来进一步支持动作的副词修饰语(例如,‘quickly’、‘hastily’),以便增强TSG表达动作的能力。其次,对于视频的动态SG(DSG)[21],我们通过在不同DSG帧之间创建跨帧的时间核心引用边来连接整个SG序列。最后,我们通过创建跨模态核心引用边来统一TSG和DSG,从而得到视频和语言的整体HSG。通过HSG(参见图 2),我们能够确保多模态语义的全面视图。

基于TSG、DSG和HSG,我们随后提出了一个细粒度结构化时空对齐学习(即Finsta)框架。我们的框架采用了双流求和架构,如图 3 所示。我们首先采用图Transformer(GTrm)[22]模型对TSG进行高度并行的图编码。基于GTrm,我们设计了一种新颖的循环图Transformer(R-GTrm)来对DSG和HSG进行空间和时间特征传播建模。我们进一步提出了一种时空高斯差分图Transformer(STGD-GTrm),以加强对对象在空间和时间维度上变化的感知。接下来,基于TSG和DSG的细粒度结构特征,我们分别执行以对象为中心的空间对齐和以谓词为中心的时间对齐,从而在空间性和时间性上增强视频-语言定位。我们将我们的方法设计为一个即插即用系统,可以集成到现有的训练有素的VLMs中,以进一步增强表示,无需从头开始训练或依赖于下游应用中的SG注释。

在标准和长视频场景的12个数据集上的6个代表性视频-语言建模任务中,Finsta框架持续改进了现有的10个表现强劲的VLMs和3个最近的长视频语言模型(LVLMs),并在微调和零样本设置中显著推动了新的最先进的VL端任务。通过进一步分析,我们验证了所提出的方法有效地解决了上述VL学习瓶颈,包括粗粒度的跨模态对齐、时间动态建模不足和VL协作不足。我们还展示了实证分析,量化了Finsta中每个模块的贡献,并探索了一系列潜在因素的影响。最后,我们讨论了系统的效率,并提供了一系列案例研究,直接洞察Finsta的进步。

这项工作在以下四个关键方面做出了贡献:

  • 据我们所知,我们是第一个基于SG表示,全面增强视频-语言表示学习,通过结构化细粒度时空对齐学习。

  • 基于GTrm,我们设计了一种新颖的R-GTrm模型,用于视频的空间-时间特征编码。我们进一步提出了STGD-GTrm,以加强对物体在空间和时间维度上变化的感知,区分移动或静止的节点。

  • 我们提出了一种新颖的高阶以对象为中心的空间对比和高阶以谓词为中心的时间对比学习策略,实现细粒度的时空跨模态对齐。

  • 我们的方法在广泛的下游VL理解任务中,经验性地提升了当前最先进的VLMs。此外,我们的框架被设计为一个即插即用模块,可以轻松应用于许多现有的VLMs。

3 场景图构建

在上文中,我们讨论了使用动态场景图(Dynamic Scene Graph, DSG)和文本场景图(Textual Scene Graph, TSG)来表示输入视频和文本。接下来,我们描述了视频和文本的DSG和TSG的构建过程,以及两者结合的全局场景图(Holistic Scene Graph, HSG)。

3.1 动态场景图(DSG)

DSG将视频描述为时间上连续的SGs。通常,每个单独的视觉SG由三种类型的节点组成,包括对象、属性和关系节点。如图2所示,视觉对象节点通过某些关系连接,并且对象附加了它们的属性。原始DSG为视频中的每一帧维护一个视觉SG,而视频帧通常在内容上是冗余的,导致巨大的计算成本。因此,我们首先对视频进行关键帧提取,以便有效地压缩密集冗余的视频帧。我们使用基于聚类的方法[45]来提取关键帧,这些关键帧在适当的采样率下保持了显著事件内容。我们记录原始视频中得到的帧的原始时间戳,这是关键的时间信息。然后,这些帧被送入解析器以生成每个关键帧的每个静态视觉SG[46]。我们遵循最常见的实践,使用FasterRCNN[47]作为对象检测器来获取所有对象节点,其中对于每个节点,我们使用1)对象的神经表示,2)在Visual Genome(VG)数据集中的对象类别标签,3)对象的边界框(图像中的2D坐标,即)。然后我们使用MOTIFS作为关系分类器来获取关系边以及关系标签。我们接着使用属性分类器来获取属性节点。所有节点(即)都通过边连接。由于DSG中的每个单独SG在图序列中是分开的,我们考虑将它们连接为一个整体。我们创建了一种跨不同SG帧的对象的时间核心引用边,即本质上是一个对象跟踪过程。我们通过测量两个具有相同对象标签()的对象的边界框()的交集比率(IoU)来实现这一点:
本质上,同一对象在时间上总是伴随着连续的空间运动和一致的标签。我们比较两个连续SG之间的对象对,并认为当IoU值时,视为核心引用节点,并在这些对象之间创建时间核心引用边。通过将所有视频关键帧的SG通过时间核心引用边集合起来,我们得到了整个视频的结果DSG(),如图2所示。正式地,
其中每个SG帧,其中:
以及每个时间核心引用边:

3.2 文本场景图(TSG)

TSG和DSG之间的关键区别在于TSG只有一个单一的图帧。与视觉SG类似,TSG也包括三种类型的节点,包括对象、属性和关系节点。对象是场景中的文本实体,每个对象都有附属的属性来描述其属性。注意,视觉SG中的对象节点是图像,而LSG中的对象节点是文本标记,这些也是那些对象的类别标签。因此,我们只维护节点的标记/标签。不同类型的节点(即)通过边连接。在这里,关系可以是持久的相关性(例如,“在...里面”,“带有”和“紧挨着”)或一些动态谓词词(例如,“喝”,“坐在...上”和“持有”)。然而,原始TSG定义未能支持动态谓词的状语修饰语。例如,在图1中的句子中,SG不包括“喝”的“快速”和“坐在...上”的“匆忙”。我们注意到这导致了重要信息的丢失,因为在VL场景中,视频可以通过其时间特征自然地描述这种动作状态。因此,我们引入了一种谓词的动态属性节点,即状语修饰语。我们在图2中说明了改装后的TSG。在实践中,我们可以通过现成的TSG解析器[20]来获取文本的TSG。我们首先将句子转换为依赖树[48],然后根据[20]中定义的规则将其转换为基于图的表示。为了使TSG支持动态谓词的状语修饰语,我们改装了现有的TSG解析器,并在依赖树中保留了状语词或短语,以便TSG增加了一种谓词的属性节点。正式地,我们将结果TSG表示为
其中

3.3 全局场景图(HSG)

给定一对文本-视频,我们期望它们的语义内容能够很好地匹配。然而,配对的文本和视频之间必须存在差异。为了充分利用两种模态的不同部分信息,并确保多模态语义的全面视图,我们考虑了这两种模态的组合视图。技术上,有了上述配对的TSG和DSG,我们可以通过创建跨模态核心引用边来统一它们,通过这些边,TSG中的对象链接到DSG中的相应对象。具体来说,我们通过CLIP编码器[34]测量任何一对文本和图像对象从TSG和DSG之间的语义相似性,分别测量文本标签()与视觉表示()和视觉对象标签()。
当匹配分数高于时,我们认为跨模态核心引用节点,并在这些对象之间创建跨模态核心引用边。注意,DSG中的对应对象仅在第一个出现的SG帧中,这意味着我们只将TSG节点链接到DSG的第一个潜在节点。这产生了一个包含视频和语言的整体HSG(),如图2所示。正式地,HSG可以表示为:
其中HSG将TSG的单个帧合并到DSG的帧序列中作为第一帧
以及跨模态核心引用边:

4 Finsta框架的架构

我们现在提出了一个细粒度结构化时空对齐学习(称为Finsta)框架,用于编码TSG、DSG和HSG表示,这些表示构成了整体VLM系统。如图3(a)所示,Finsta具有双流求和架构。

4.1 使用图变换器(GTrm)进行空间编码

首先,对于TSG GT,我们只需要处理场景的细粒度空间性。因此,我们考虑采用图变换器(GTrm)[22]来模拟TSG。与一般图神经网络[38]、[39]相比,GTrm在图拓扑建模和变换器架构[40]的高并行计算方面都有所进步。GTrm有L个堆叠层,其中第l层的节点vi的表示hl_i更新如下:
其中k表示注意力头编号,是注意力头表示,是连接。连接后是前馈层(FFN)和带有残差连接的Add&Norm层。wk,l_i,j由k-th自注意力头给出:
其中是TSG中边的嵌入。这里所有都从上一层的节点表示中通过方程(13)导出:
初始节点表示h0_i是TSG节点的文本标签嵌入。我们将所有hl+1_i汇总到Hl+1中。对于图边表示,与TSG的节点传播有类似的过程:
通过汇总所有el+1_i,j,我们得到结果El+1。

4.2 使用递归图变换器(R-GTrm)进行时空编码

与单帧TSG相比,DSG的特点是有时间动态性。因此,我们设计了一种新颖的递归图变换器(R-GTrm),我们从递归网络[44]中汲取了主要灵感。如图3(b)所示,在GTrm传播的基础上,R-GTrm通过中的时间核心引用边对节点进行建模,本质上是对时间上的对象进行跟踪:
每个注意力头在DSG的t-th时间帧中如下进行:
这里是DSG中时间步t的边的嵌入。与方程(15)相同,K, Q, V都从相应帧的节点表示中导出。初始节点表示h0,t_i是对象神经表示ft_i、节点标签ct_i和原始帧时间戳τt_i的连接。与GTrm相比,R-GTrm表示hl,t_i的更新进一步融合了前一帧t-1的特征,通过自动门ηt_q:
有了,我们执行与GTrm相同的后续传播。图边传播与TSG的GTrm编码相同。
通过汇总所有el+1,t_i,j,我们得到结果El+1,t。由于HSG与DSG具有相同的时间属性,我们使用另一个R-GTrm来编码HSG,即GC:
为简化起见,我们将GTrm的最终TSG节点特征矩阵表示为HT={hT_1, ···, hT_i},DSG从R-GTrm的矩阵表示为HD={HD_1, ···HD_t}={hD_{1,1}, ···, hD_{t,i}}(t表示帧维度),HSG的一个表示为HC={HC_0, HC_1, ···HC_t}。同时,我们使用GTrm和R-GTrm的结果节点表示(即最后L-th层)来初始化HSG的节点表示:

4.3 时空高斯差分图变换器(STGD-GTrm)

上述R-GTrm仍然无法充分感知对象在空间位置上的变化。一个重要的后果是,无法充分建模移动和静止对象之间的区别。我们强调,建模视频动态的一个关键步骤是区分运动中的对象和静止对象(即前景与背景)。为此,基于R-GTrm,我们进一步设计了一种时空高斯差分图变换器(STGD-GTrm)。关键思想是使图变换器能够感知对象在空间和时间维度上的变化。为了说明这一点,我们在图4中绘制了任意对象在两个连续帧(或关键帧)之间的变化强度(即分布密度,由以下分布核描述)。

我们观察到,这种时空变化可能本质上遵循高斯分布,其中移动更明显的对象往往具有更大和更尖锐的能量,而移动缓慢的静止对象则具有较低的强度。因此,我们提出用高斯分布来建模DSG或HSG的图节点沿其跟踪器从时间核心引用边的时空差异。
技术上,节点在连续时间从t到的时空接近度通过高斯核捕获,如下所示:
其中表示相邻节点的邻居。是对象的边界框(记为)的质心。是接近度的空间尺度。通过观察与邻居的空间运动(位置变化),也可以合理地区分由相机移动引起的‘假阳性’移动对象。如图4所示,在R-GTrm从t到的l层传播过程中,在此两层之间插入了STGD-GTrm的该层。对于第k个高斯核注意力头(统一表示为),自注意力编码器如下:
有了k个注意力头,我们通过连接构建最终表示,然后通过FFN转换和残差连接,与R-GTrm中的操作相同:
有了,我们然后在R-GTrm的门控机制中加入STGD-GTrm特征:
有了新的,R-GTrm的后续计算继续进行。通过这种方式,系统学会了更好地捕获对象的时空变化,并且能够在图表示学习过程中自动识别静态节点和动态节点。

5. 视频-语言表示学习

有了通过Finsta框架学习的细粒度结构特征,我们现在执行表示学习,通过此过程增强现有主机VLM的VL表示。以下,我们首先详细说明跨模态对齐学习。然后我们介绍如何将我们的Finsta应用于现有的VLM。

5.1 细粒度结构化时空对齐学习

我们将VL对齐学习分为空间性和时间性视角,前者侧重于细粒度的静态对象级语义匹配,而后者集中在细粒度的动态动作级语义匹配。这两个学习过程在DSG和TSG编码模块之间进行。1我们还注意到,尽管学习仅在DSG和TSG编码器之间发生,但通过后续的特征注入和初始化,学到的特征将进一步传播到HSG编码器中,参见方程(29)。
  1. 高阶以对象为中心的空间对比(OSC)。我们的想法是鼓励TSG中的对象节点在DSG中找到它们正确的对应物。我们采用对比学习[49]来拉近语义相同的节点对,并推开不同的。细粒度的VL建模可以在TSG和DSG中的单个对象上进行。然而,我们考虑一种更有信息量的方式;我们执行以任何对象为中心的高阶区域的匹配。直观地说,当对象对及其修改上下文(即特定属性甚至关系邻接对象)都匹配时,文本对象和视觉对象应该被视为更相似。补充材料第1节说明了高阶邻域建模机制。对于TSG对象,我们遍历其n阶邻居。然后我们通过池化操作获得区域表示。同样,对于DSG对象,我们也获得n阶邻居表示。然后我们测量这两个区域表示之间的二分图相似性,并产生学习目标:
其中是退火因子。我们还定义了一个阈值来决定匹配置信度,即的对被认为是对齐的。表示与TSG中的i相对应的正DSG区域,即
  1. 高阶以谓词为中心的时间对比(PTC)。仅建模空间性是不够的,这激发了以谓词为导向的动态语义。以谓词为中心的时间对齐与OSC学习有类似的公式。目标是找到TSG中文本谓词与DSG中动态动作的对应关系。与OSC学习略有不同,我们采取以谓词为中心的时间对比学习。我们的目标是TSG中的动态关系节点(即谓词),并以谓词节点为中心。同样,我们首先找到其n阶邻居空间区域(表示为)在TSG内。我们使用相同的方法找到DSG中每个谓词节点的n阶邻居空间区域,并进一步将DSG序列与时间间隔切片,即从DSG序列的第帧开始,到帧结束。我们取区域特征的池化表示()作为DSG的候选对应物。此后,我们执行PTC学习:
其中是退火因子,是PTC的阈值,用于决定对齐的置信度。这种“文本谓词”-“视觉对象跟踪”对齐生动地模拟了两种模态之间的时间动态。

5.2 表示转移学习

通过上述对齐学习,文本和视频的TSG和DSG表示可以很好地匹配,并有望更好地促进下游VL任务。然而,直接将Finsta作为VLM使用可能会有问题,因为我们的系统在很大程度上依赖于SG注释,而为所有潜在的传入数据解析SG标签将不可避免地引入噪声,导致低效的应用。同时,从头开始训练一个VLM与Finsta将非常耗费资源(即,有100m VL对),并且解析如此大量的SG注释是不切实际的。为此,我们考虑将Finsta设计为一个即插即用模块,并将对齐良好的VL特征表示注入到主机VLM中。基于任何具有类似双流总和架构的现有VLM,通过预热启动,我们可以更有效地进行对齐。
技术上,我们使用知识蒸馏(KD)技术将Finsta注册到主机VLM,如图6所示。在Finsta传播消息之前,我们首先导入主机VLM的文本编码器、视频编码器和多模态编码器的第一层表示,分别作为各种SG建模的初始特征表示,这些被视为对齐良好的视觉-语言嵌入。我们用分别表示主机VLM中的文本、视频和多模态编码器的表示。具体来说,主机VLM的文本/视频/多模态表示的第一层表示被复制到Finsta作为输入TSG/VSG/HSG的节点嵌入的初始输入特征表示,即,其中是Finsta中输入TSG/VSG/HSG的节点嵌入。通过将对齐良好的VL特征表示注入Finsta,我们可以预热主机VLM的后续训练。

之后,我们通过KD将Finsta的特征蒸馏到主机VLM中。Finsta编码器在SG数据上执行传播,并最终获得最后一层的对齐良好的时空VL特征。接下来,我们通过KD将它们从Finsta蒸馏到主机VLM中。使得主机VLM编码特征学习与Finsta中的特征相似,即细粒度时空对齐的特征。
其中是学习系数。我们注意到,用于蒸馏的表示是整体实例级表示,即我们取'[CLS]'标记的输出表示作为转移目标。KD仅在后训练阶段发生。在微调或推理下游任务和数据时,主机VLM可以单独进行更好的预测,而不需要Finsta的参与。这样,SG注释仅在后训练阶段需要。
注意:我们期望主机VLM具有与Finsta相同的架构(即文本编码器、视频编码器和跨模态编码器)以实现即插即用功能。确切相同的架构,虽然非常必要,但不是严格要求。虽然'文本-视频-多模态'编码架构已成为大多数现有VLMs的标准范式[42],但也有许多VLMs没有严格的双流总和架构[10]、[14]。即使主机VLM中缺少三个编码器中的任何一个,Finsta仍然可以工作,只需不将Finsta特征蒸馏到主机VLM中缺失的编码器(即,在方程41中,删除任意三个)。但在这种情况下,Finsta的功效将在一定程度上受到影响,我们将在以下实验部分7.3.4中进行分析。

5.3 整体系统的训练

整体框架的训练采用预热范式。我们首先在具有TSG和DSG注释的文本-视频对上预热训练Finsta,进行对齐学习()。当Finsta趋于收敛时,我们然后执行知识蒸馏,并将Finsta表示注入主机VLM,如上所述。联合训练涉及三个学习目标:。当然,主机VLM中也有标准的VL学习目标,如掩蔽语言建模和整体粗粒度视频-文本对齐学习。我们可以将所有学习目标总结在一起:
其中是动态变化的线性学习调度器[52]的系数。

6. 实验和主要结果

6.1 实验设置

  1. 视频-语言理解任务我们实验中将一系列代表性的VL建模任务分为四组:视频到文本转换(例如,视频动作识别,视频描述),文本到视频转换(例如,视频-文本检索),VL协作(例如,视频问答)以及更具挑战性的场景,长视频-文本理解(例如,长视频问答,视频-段落检索)。对于每个任务,我们使用代表性的数据集,并用常见实践的指标来衡量性能。在补充材料第2节中,我们详细描述了所有任务,包括任务定义、数据集和指标。
  2. 实施细节。我们的Finsta使用12层GTrm进行TSG编码,12层R-GTrm和STGD-GTrm进行DSG编码(L=12)。HSG R-GTrm和STGD-GTrm编码器是6层版本。所有注意力头数设置为8(k=8)。我们系统中的所有维度都设置为768。后训练期间的超参数设置如下,以实现最佳效果。初始退火因子都设置为0.8。方程41中的系数设置为[用于视频到文本转换任务,[用于VL协作任务,[用于文本到视频转换任务。初始权重设置为:,两者都将从0.5线性降低到0.15随着训练进行。逐渐增加到0.5。保持不变。用于构建时间核心引用边的阈值,设置为0.6;用于跨模态核心引用边,设置为0.9。用于对齐学习的n阶邻域计算中,n设置为3用于OSC,4用于PTC。对齐置信度阈值设置为0.7用于OSC,设置为0.6用于PTC。不同模型的分数是五次运行的平均值,使用随机种子,其他基线的结果是直接从原始论文中复制的(我们将标记它们的引用)。
  3. 基线和主干VLMs。我们与不同基准的强性能基线进行比较。我们考虑现有的最新语言模型作为我们的主干,包括10个VLMs和3个LVLMs。我们采用可能具有1)双流总和架构的VLMs,如HDVILA[18]、Clover[7]、LFVILA[16],或2)某些编码器缺失的VLMs,如VideoCLIP[14]和CLIP4Clip[12]缺少跨模态编码器,All-in-one[53]只有一个多模态编码器。不同的(L)VLMs在不同数量的语料库上预训练,并且具有不同体积的参数。我们在补充材料第3.1节中详细说明所有VLMs的架构、参数大小和相关数据。
  4. 后训练细节。在后训练中,我们首先预热调整Finsta 2个周期,使用300的批量大小。我们使用AdamW优化器,权重衰减为5e-3和betas(0.9, 0.98)。学习率首先预热1个周期到5e-3,然后衰减。所有训练都在16个NVIDIA A100 GPU上进行。对于正常(短)形式视频的Finsta-VLMs的后训练,我们总共使用了50K VL对,其中25K从WebVid-2.5M[54]中采样,25K从HD-VILA-100M[18]中采样。对于Finsta-LFVILA2的后训练,我们进一步考虑使用LFVILA训练的长形式数据,即从LF-VILA-8M[16]中采样了30K VL对,其中avg.视频时长为100.2秒,avg.文本长度为307.9个标记。补充材料第3.2节扩展了后训练数据集的细节。
  5. 场景图解析。对于TSG注释,我们主要遵循SG应用的先前实践。我们还执行过滤,移除在所有解析的场景图中出现少于5次的对象、关系和属性。经过这样的过滤,我们在TSG中获得了7,021个对象、2,256个关系和4,895个属性。对于每个视频,我们灵活地提取10-50个关键帧,同时保留它们的顺序。DSG解析的主要过程已在第3.1节中详细说明。
  6. 端任务微调细节。对于主机VLM的输入视频,我们将视频帧调整大小并中心裁剪到256×256,分成16×16的大小的块,得到H=W=16。然后,与主机VLM的联合训练是从5到20个周期,使用批量大小在[100,150,200]之间,根据任务和数据集使用灵活。对于不同的下游任务,我们主要保持上述实现细节中描述的相同配置,只有少数地方进一步调整。不同模型的分数是五次运行的平均值,使用随机种子,其他基线的结果是直接从原始论文中复制的(我们将标记它们的引用)。

6.2 主要结果

我们首先在广泛的VL任务上评估Finsta的微调性能。

6.2.1 视频到文本转换任务的结果

*视频动作识别。表1显示了K400和SSV2数据集的整体性能,其中Finsta增强的VLMs也与现有的强性能系统进行比较。可以看到,InternVideo已经成为该任务的现有最新系统。然而,我们的Finsta进一步帮助InternVideo在两个数据集上分别提高了2.6%和3.3%的Top-1准确率,使Finsta-InternVideo成为两个基准上的当前最新状态。总体而言,所有不同的VLMs都从Finsta中获得了不同程度的性能提升。特别是,HDVILA的平均准确率提高了4%以上。

*视频描述。表2显示了三个基准的结果。首先,我们可以看到所有不同的VLMs都从Finsta中获得了明显的改进。有了Finsta,两个数据集上的最新系统性能进一步提高。这验证了我们方法在增强视频到语言类型任务理解方面的有效性。同样,除了具有双流总和VLMs外,还包括了只有一个共享多模态编码器的All-in-one VLM。有趣的是,与其他组合相比,Finsta-All-in-one获得了最小的改进。这主要是因为缺少两个关键模块:文本编码器和视频编码器。

6.2.2 文本到视频转换任务的结果

*视频-文本检索。我们使用总共9个VLMs作为主干,其中我们进一步与5个强性能基线进行比较。我们在表3中展示了总体结果。可以看到,我们的Finsta仍然一致地改进了所有VLMs,并且有明显的改进。其中,Finsta-Video-LLaMA和Finsta-Video-LLaVA已成为所有数据集上的最新状态。特别是,我们发现HDVILA从Finsta中受益最多,平均召回率提高了10.3%。同样,没有跨模态编码器的VideoCLIP和CLIP4Clip VLMs与其余具有完整双流总和架构的VLMs相比,改进有限。

6.2.3 视频-文本协作任务的结果

*视频问答。表4显示了多项选择QA和开放式QA的结果。与上述任务类似,所有不同的主干VLMs都通过我们的Finsta系统得到了改进。其中,Finsta-Video-LLaMA和Finsta-Video-LLaVA在所有数据集上的所有QA设置中都创下了新的最高记录。最显著的是,Finsta在MSVD-QA数据上将原始Video-LLaVA的准确率提高了6.8%。同样,对于All-in-one VLM,改进最为保守。

6.2.4 长视频-文本任务的结果

*视频-段落检索。如表5所示,Finsta帮助所有不同的VLMs实现了不同程度的改进,其中两个观察点。首先,我们可以看到LFVILA (L-Vid)的性能比LFVILA (S-Vid)强得多。同样,Finsta-LFVILA (L-Vid)成为两个数据集上的最新状态。这样的差距表明,用长视频(和文本)训练VLMs对于长视频场景的重要性。此外,在三个不同的LVLMs中,Video-LLaMA从Finsta中获得的提升最为显著。

*长视频问答。表6报告了两个数据集上的结果。同样,所有四个不同的系统都得到了一致的提升,其中L-Vid LFVILA获得了最大的改进。Finsta显著提升了原始LFVILA (L-Vid) VLM在两个数据集上的准确率,分别提高了8.7%和7.1%。Finsta-Video-LLaVA和Finsta-LFVILA (L-Vid)成为两个数据集上的最新状态。上述Finsta在长视频设置上的一致改进明显证实了其在改进VL建模和理解方面的有效性。

6.3 零样本视频-语言理解结果

在这里,我们检验了Finsta在零样本设置中的有效性,其中VLMs在没有微调需求训练数据的情况下对下游VL任务进行预测。我们代表性地测试了三个VL任务:视频动作识别、视频-文本检索和视频问答,每个任务使用不同的数据集(s)。结果如表7所示,从中我们可以得出几个关键观察点。首先,所有VLMs都通过Finsta显示出显著的改进,特别是Finsta-InternVideo和Finsta-Video-LLaVA成为零样本最新性能的最新最佳。其次,与之前的微调结果相比,Finsta在零样本场景中带来的改进更为明显。这强调了Finsta在细粒度结构化VL对齐学习中的作用,本质上提供了一个关键信号,有助于无监督学习。Finsta充分利用了外部语义场景结构特征(即SGs)来增强VL理解,相应地带来了这些改进。最后,与其他具有完整双流总和架构的VLMs相比,VideoCLIP和CLIP4Clip的改进最小,表明缺少某些模块可能会显著影响Finsta的性能。

7 讨论和深入分析

在这一部分,我们通过一系列深入分析来讨论系统的进展,回答以下五个关键研究问题:
RQ-1:Finsta是否通过真正解决VLMs的瓶颈来改进VLMs? RQ-2:每个模块对整体Finsta的贡献有多大? RQ-3:哪些因素影响Finsta的性能?不同因素如何影响Finsta? RQ-4:Finsta的计算成本是多少?Finsta是否具有与其功效相比的成本效益? RQ-5:Finsta如何取得更好的进展?

7.1RQ-1: Finsta是否真正解决了VLMs的瓶颈问题?

我们在引言部分强调了解决现有高性能VLMs在视频和语言建模中的三个关键瓶颈的必要性。这里我们通过人类评估VL建模来直接回答这个问题,看看Finsta对主干VLMs的增强是否真的来自于解决了这些主要挑战。我们选择了四个VLMs,包括VIOLET、HDVILA、InternVideo和Video-LLaVA。我们从ActivityNet测试集中随机抽取了300个长视频-语言对,用于零样本视频描述、问答和VL检索任务,每个视频包含超过8个动作,以模拟具有挑战性的动作复杂视频场景。我们邀请了5名经过培训的志愿者,根据VLMs的输出,评估每个VLMs在视频-语言对齐、视频时间动态和视频-语言协作方面的直接性能。在图7中,我们绘制了装备Finsta前后的变化,Finsta明显增强了这三个方面的能力。

此外,我们进一步评估了Finsta实现的细粒度视频-语言对齐/定位。我们测量了来自TSG和DSG的每对节点,即二分图得分:。注意,这里我们将n降为0,即只考虑对象节点本身。我们主要检查了装备了我们Finsta的HDVILA和Clover VLMs。结果如图8所示。可以看到,无论是1)空间文本-实体和视觉-对象对齐,还是2)动态时间谓词-动作定位,在Finsta系统中都得到了很好的捕获。

通过语言视频定位任务直接评估时间动态建模的直接方法是,通过给定的语言查询精确定位未修剪视频中的具体时刻。我们在同样的具有挑战性的ActivityNet数据上进行实验,并与包括DRN[79]和VSLNet[80]在内的最新模型进行比较。如图9所示,我们的Finsta通过显著提升主干VLMs在语言中定位视频时间性的能力,从而提升了性能。

7.2 RQ-2: 每个模块对整体Finsta的贡献有多大?

为了理解每个组件的确切贡献,这里我们对Finsta-HDVILA和Finsta-LFVILA进行了消融研究,分析了SG表示、SG编码器和对齐学习三个方面。结果如表8所示。首先,通过1)取消DSG中的时间核心引用边,2)取消TSG中的副词修饰语节点,3)取消HSG中跨模态核心引用边,分别观察到不同程度的性能下降。其中,安装DSG的时间核心引用边最为重要,平均下降了3.7%。进一步,我们将基于Transformer的GTrm替换为GAT[39]以对TSG进行编码,并将R-GTrm替换为RGNN[81]编码器以对DSG和HSG进行编码。相应地,也出现了相当大的性能下降,表明使用GTrm和R-GTrm编码器的有效性。更重要的是,我们看到取消了STGD-GTrm后,性能下降了5.1%,突出了建模视频移动变化的重要性。最后,我们取消了对象中心空间对比(LOSC)或谓词中心时间对比(LPTC)的对齐学习,与任何其他因素相比,性能下降最为显著。特别是时间对齐(LPTC)在所有其他模块中显示出最显著的影响。此外,如果我们将VL对齐的高阶特征建模降级为一阶方式,也可以看到相当大的下降。这证实了高阶特征建模的突出性。

7.3 RQ-3: 影响Finsta性能的因素有哪些?

在这一部分,我们分析了所有可能影响Finsta性能的因素。

7.3.1 超参数的影响

我们主要研究了三组关键的超参数:构建DSG和HSG中时间核心引用边和跨模态核心引用边的;OSC和PTC对齐学习的邻域特征的阶数;以及对齐置信度阈值
  1. 不同阈值对构建时间和跨模态核心引用边的影响。我们改变了的值,并使用构建的SG数据训练VLMs,然后探索Finsta-HDVILA在各种VL任务上的性能。在图10中,我们绘制了结果。可以看到,不同的值会导致不同的最终任务结果。我们发现,当设置为0.6时,可以获得DSG中时间核心引用边的最佳质量。将设置为0.9似乎是最佳选择,用于构建HSG中的跨模态核心引用边。这是因为视频和语言模态在语义上存在更大的差距,自然需要更大的阈值来找到它们的匹配。
  2. 高阶邻域建模的影响。直观上,更高阶(n)的特征建模允许更大的上下文窗口,但代价是覆盖更多的噪声。在图11中,我们展示了Finsta-HDVILA和Finsta-Clover模型的趋势。可以看到,OSC学习主要依赖于3阶特征进行静态空间对齐;而对于PTC学习,需要4阶区域上下文进行最佳动态时间对齐。这是合理的,因为时间动态建模的对齐学习更多地依赖于两种模态的上下文。
  3. 不同阈值对对齐学习的影响。我们进一步探讨了设置不同的阈值对细粒度空间和时间对齐学习的影响。在图12中,我们展示了结果。可以看到,的趋势可能略有不同。总体而言,最佳值的高于。这表明,时间动态的对齐需要两种模态之间更多的证据。总之,我们将设置为0.7用于OSC,将设置为0.6用于PTC,在这里我们可以确保最佳性能。

7.3.2 后训练数据量的影响

一个普遍的观点是,用于训练的数据越多,得到的性能就越好。对于Finsta的后训练,我们实际上只使用了非常有限的数据量,即正常场景视频的总共50K,这仅仅是原始Clover(5.3M)预训练的0.94%,以及原始HDVILA(136M)预训练的0.037%。在图13中,我们通过评估Finsta-VLM使用不同数量的SG数据进行后训练的端任务(视频-文本检索)性能来验证这一说法。可以看到,即使SG数据不足50K,Finsta-HDVILA和Finsta-Clover都可以迅速达到最佳性能,基于预训练的HDVILA和Clover VLMs。这是因为预训练良好的主干VLMs为更快速的收敛提供了预热启动。然而,如果我们将Finsta视为一个独立的VLM,并从头开始用SG注释进行(预)训练,我们发现预训练过程需要更多的数据,并且也会导致较低的峰值。

7.3.3 SG解析质量的影响

我们提出的Finsta系统在很大程度上依赖于SGs的可用性。这里我们研究了SG解析器质量对最终结果的影响。我们通过训练不同性能的SG生成(SGG)步骤来改变SG解析器的质量,以便它们将显示出不同发展性能。SGG评估的传统指标是Recall@K(R@K)。在图14中,我们展示了使用不同质量的SG数据后训练的Finsta-VLMs在端任务(MSVD上的VQA)上的结果。总的来说,SG注释的较低质量确实会损害VL学习在得到的Finsta中的性能。我们还发现,Finsta性能对TSG的质量更敏感。直观上,较低质量的SG结构提供了错误的监督,这将误导细粒度结构对齐。幸运的是,目前使用的SG解析器的质量足以获得满意的SG注释,正如我们目前的实现所证明的。最重要的是,Finsta系统仅依赖于最小量的SG注释数据进行后训练。在端任务微调阶段,实际上不需要输入额外的SG,有效地避免了SG解析质量问题在端任务阶段引入的噪声。

7.3.4 VLM模块存在的影响

Finsta的即插即用设计可以方便地应用于任何现有的VLMs。虽然Finsta具有双流总和架构(即文本/视频/跨模态编码器),但即使缺少这三个编码器中的任何一个,Finsta仍然可以工作。然而,没有完整的架构,Finsta的功效将在一定程度上受到内在影响。这可以直接观察到上述VL端任务实验中,VideoCLIP、CLIP4Clip和All-in-one上。为了直接理解,这里我们研究了一个原本具有完整双流总和结构的VLM,我们消融了它通过移除某些模块,然后将其与Finsta系统装备。在图15中我们可以看到,从注入到VLMs的Finsta模块中移除任何部分都会导致明显的性能下降。特别是,1)同时取消文本和视频编码器(TSG和DSG编码器)进行VL细粒度对齐,或2)取消多模态编码器(HSD建模),性能下降更为显著。幸运的是,大多数现有的VLMs都具有双流总和架构,在我们的Finsta中可以充分发挥作用。

7.4 RQ-4: Finsta的计算效率如何?

之前我们证明了Finsta有效地帮助VLMs在端任务上取得了更好的性能。这里我们尝试量化Finsta的计算效率。在表9中,我们总结了装备Finsta的HDVILA和Clover VLMs在预训练/后训练阶段的计算成本。可以看到,由于Finsta作为模块,它为主干VLMs引入了额外的参数,大约增加了87M。同时,这也增加了额外的GPU内存。然而,在微调阶段,Finsta实际上已经从主机VLMs中移除,因此不需要额外的消耗。Finsta的设计使其可以方便地集成到现有的预训练VLMs中进行增强,无需太多努力。也就是说,Finsta的一个很大优势在于避免了后训练所需的大量数据和GPU时间。例如,Finsta-HDVILA比原始HDVILA预训练减少了99.9%的数据,仅增加了0.2%的训练消耗。此外,Finsta引入的计算负担有限,即GFLOPs增加了约16%。这是因为Finsta被设计为与主机VLM并行的模块,在推理期间不会造成显著的延迟。同时Finsta采用Transformer架构作为主干,在图数据的高效并行计算方面取得了进展。总的来说,我们的Finsta系统在效率和效果之间取得了成本效益的平衡,这对于实际应用是有利的。

7.5 RQ-5: Finsta如何取得更好的进展?

最后,我们尝试直接理解Finsta在端任务上如何成功。我们通过一个案例研究来实证展示Finsta在端任务上的预测。代表性地,我们选取了语言视频定位、视频描述和视频问答,其中我们使用从ActivityNet中随机选取的测试样本。我们将Finsta-HDVILA与HDVILA和金标准答案进行比较,如图16所示。可以观察到,虽然原始的HDVILA做出了不准确或错误的任务预测,但Finsta-HDVILA可以给出更准确的预测,这些预测与金标准答案更为吻合。例如,在依赖于视频时间动态理解能力的Language Video Localization中,给定长达3分钟42秒的视频,HDVILA通过错误地包含许多与滑雪活动无关的视频帧来解释查询“The person is skiing on the slope”。相比之下,Finsta-HDVILA更准确地确定了动作边界。对于描述和问答,关键在于识别视频语义然后生成精确的文本,这需要强大的整体视频-语言视图能力,以及细粒度的跨模态对齐。可以看到,HDVILA的输出包含不准确的内容,例如未能检测到“热身”事件,而是将其识别为“移动”。然而,Finsta-HDVILA成功地解决了所有这些挑战,产生了高质量和更正确的结果。这些案例本质上揭示了Finsta在增强VL理解方面的更强能力。

8 结论

在这项工作中,我们研究了一个细粒度结构化时空对齐学习(Finsta)框架,以增强现有的视频-语言模型(VLMs)。首先,我们采用了文本场景图(TSG)和动态场景图(DSG)来表示输入的文本和视频。我们还通过跨模态核心引用边将TSG和DSG统一到一个整体场景图(HSG)中,以桥接两种模态。其次,我们基于这些SG开发了一个框架,在其中使用图Transformer(GTrm)对TSG进行编码,并设计了一种新颖的循环图Transformer(R-GTrm)来编码DSG和HSG,以进行空间-时间视频特征传播。我们进一步提出了一种时空高斯差分图Transformer(STGD-GTrm),以加强对对象在空间和时间维度上变化的感知。最后,基于Finsta,我们执行了以对象为中心的空间对比(OSC)对齐和以谓词为中心的时间对比(PTC)对齐,以增强VL定位。Finsta系统被设计为一个即插即用模块,通过所提出的表示转移学习,可以方便地集成到现有的预训练VLMs中进行进一步的表示增强。我们在标准和长视频场景的12个数据集上的6个代表性VL建模任务中进行了广泛的实验。我们的Finsta框架持续改进了现有的10个顶尖性能VLMs和3个最近的LVLMs,并在微调和零样本设置中显著推动了新的VL端任务,取得了显著的进步。进一步的深入分析,为我们的系统的优势提供了全面的了解。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 计算机书童 小编


计算机书童
为大家分享计算机、机器人领域的顶会顶刊论文
 最新文章