与使用人工注释标签进行监督训练的传统范式不同,对比语言-图像预训练(CLIP)使用自然语言描述来监督表示学习,这提高了学习模型的可扩展性和可转移性。更具体地说,CLIP是一个双编码器结构,由视觉编码器和文本编码器组成。视觉编码器旨在将输入图像映射到一个紧凑的嵌入空间,可以使用ResNet架构或ViT架构实现。文本编码器旨在基于Transformer从自然语言描述中提取高语义特征。随后,如果它们是匹配对,则拉近获得的图像特征和文本特征,如果不是,则推开。总之,CLIP的学习目标是在共同的特征空间中执行多模态对比学习。为了进一步提高表示能力,CLIP在4亿个网络爬取的图像-文本对上进行了预训练。当转移到下游任务时,为了与预训练期间的文本描述对齐,输入文本通常使用提示模板“a photo of [CLS]”,其中[CLS]表示实际的类别名称。
3.2 CLIP-FSAR
概述。少样本动作识别的目标是用少量视频识别新的行动类别。在典型的少样本设置中,有两个类别不相交的数据集,一个基础数据集用于训练,一个新颖数据集用于测试。为了模拟测试环境,在训练过程中通常从中抽取大量的少样本任务(或称为情节)来优化模型。对于一个标准的路样本任务,有一个支持集,由个类别和每个类别的个视频组成。任务的目标是基于支持样本对查询视频进行分类。为了方便公式化,我们考虑路1样本(即)任务来展示我们的框架。按照之前的作品,我们在输入视频上实施了稀疏帧采样策略以减少计算负担。我们首先采用CLIP的视觉编码器生成输入视频帧的特征,并使用文本编码器提取相应类别自然语言描述的文本嵌入。然后我们对这些获得的帧特征和文本特征应用视频-文本对比目标,以适应CLIP到少样本视频任务。此外,我们提出了一个原型调制,以细化少样本度量目标的视觉原型。图2展示了我们CLIP-FSAR的整个框架。视频-文本对比目标。给定一个支持集和一个查询视频,其中是一个由稀疏采样的帧组成的支持视频。视觉编码器被用来编码视频特征:其中,,是通道数。然后我们使用文本编码器提取基础类别的文本特征,提示模板为“a photo of [CLS]”,并将获得的文本特征表示为,其中是基础集的总类别数,是一个特征向量。按照之前的做法,为了保留文本编码器中原始预训练的可转移知识并减少优化负担,我们在训练期间固定不更新。为了弥合CLIP和少样本视频任务之间的任务差异,我们模拟原始CLIP训练目标,以最大化视频特征和文本特征的相似性,如果它们是匹配对,则最小化。为了实现这个目标,我们首先计算视频-文本匹配概率如下:其中,是余弦相似度函数,GAP是全局平均池化的简称,表示一个可学习的温控因子。然后我们施加一个交叉熵损失在预测和实际类别标签之间,以优化目标。原型调制。现有的少样本动作识别方法,如OTAM,通常通过比较查询视频与支持视觉原型的时间对齐距离来进行分类。在少样本动作识别任务中,视频原型是一系列帧原型,有关更多细节,请参阅OTAM。查询视频和支持视频之间的距离可以表示为:其中代表时间对齐度量。在OTAM中,是动态时间弯曲的变体,用于将支持-查询距离测量为帧对齐成本。少样本性能严重依赖于原型估计的准确性。一方面,在低样本场景中,由于数据稀缺,视觉信息往往不足,导致原型不准确。另一方面,视觉和文本模态之间存在互补性,CLIP的文本描述表示涉及丰富的语义先验。基于这些,为了提高支持原型的可靠性,我们提出利用信息丰富的支持文本特征来细化原型。具体来说,在支持视觉特征的基础上,我们将文本特征堆叠到相应的视频沿时间维度,即,并使用时间Transformer自适应地融合特征。我们将生成的增强视觉特征表示为(不包括输出文本特征)。由于我们在测试期间不知道查询视频的真实类别信息,我们只将视觉查询特征输入到时间Transformer中,以便输出的查询特征和支持特征可以在一个共同的特征空间中匹配。随后,我们采用时间对齐度量来计算查询-支持距离:其中在我们的CLIP-FSAR中,默认情况下是OTAM度量。请注意,提出的CLIP-FSAR是一个即插即用框架,在后续的实验部分,我们将CLIP-FSAR作为即插即用组件插入到其他现有度量或方法中(例如Bi-MHM、ITANet和TRX),并实证展示了其可插拔性。根据距离,查询视频对支持类别的概率分布可以表示为:按照之前的作品,我们可以使用交叉熵损失来优化模型参数。我们CLIP-FSAR的最终训练目标是:其中是一个平衡因子。对于少样本评估,我们可以通过方程5获得属于支持类别的匹配概率,就像之前的作品一样。此外,由于我们提出的框架的两个目标设计,我们也可以结合视频-文本匹配结果(方程2)和少样本分类结果(方程5),以获得合并预测:其中是一个可调整的超参数,我们将上述集成方式表示为CLIP-FSAR†。请注意,上述零样本和少样本结果的组合只是可选方法,本文主要关注少样本性能。
为了验证所提出框架的有效性,我们在五个标准数据集上比较了我们的CLIP-FSAR与当前最先进少样本动作识别方法的性能。结果总结在表1和表2中。从实验结果中,我们可以得出以下观察结果:(a)与OTAM基线相比,我们的方法可以通过利用CLIP的多模态知识显著提升性能。例如,在5路1样本SSv2-Full设置下,我们的方法使用CLIP-RN50和CLIP-ViT-B分别实现了14.0%和11.7%的增益。值得注意的是,基于CLIP-ViTB的我们的CLIP-FSAR始终优于其他最先进的技术,证明了我们方法的有效性。(b)通过比较OTAM和具有相同CLIP视觉编码器的CLIP-Freeze的结果,我们可以看到在少样本动作识别任务上重新训练CLIP可以使它适应下游任务并进一步提高性能。(c)基于CLIP-VIT-B的CLIP-FSAR通常实现了优于基于CLIP-RN50的结果,表明更强的预训练模型会导致更好的少样本泛化。此外,多模态预训练CLIP显示出比ImageNet预训练更好的性能。(d)CLIP-FSAR与基线之间的性能差距在较小的射击次数下更显著,并随着射击次数的增加而逐渐缩小。我们将其归因于引入文本语义线索在视觉信息不足时更有效。同样,与基线相比,基于CLIP-RN50的性能增益比CLIP-ViT-B更显著。在Kinetics数据集上,1-shot性能差距是11.2%(87.6% vs. 76.4%)在CLIP-RN50上,而在CLIP-ViT-B上是1.5%(89.7% vs. 88.2%)。(e)通过将视频-文本匹配结果纳入少样本分类中,即CLIP-FSAR†,性能也在一定程度上得到了提高。为了进一步验证我们框架的可插拔性,我们将提出的方法作为即插即用组件应用到现有度量或方法中,如Bi-MHM、ITANet和TRX。从表3中,我们可以发现在扩展我们的CLIP-FSAR到这些技术时也取得了显著的性能提升,表明我们的方法是一个通用架构。
在我们的CLIP-FSAR中,我们采用了广泛使用的提示模板,即“a photo of [CLS]”,作为默认设置。在表14中,我们探索了不同文本提示的影响,并发现不同的提示模板在不同数据集上的表现不一致,例如,“[CLS]”在SSv2-Small上表现最佳,而在Kinetics数据集上表现最差。研究设计通用且有效的文本提示形式将是有价值的工作。此外,我们主要关注视觉方面来调制原型,并没有考虑一些潜在的改进在文本方面,例如使用视觉信息来细化文本特征。我们将上述讨论留作未来的工作。