论文信息
题目:Uncertainty-boosted Robust Video Activity Anticipation
不确定性增强的鲁棒视频活动预测
作者:Zhaobo Qi; Shuhui Wang; Weigang Zhang; Qingming Huang
源码链接:https://github.com/qzhb/UbRV2A
论文创新点
提出了一种新的不确定性增强的视频活动预测框架,能够生成指示预测结果可信度的不确定性值,增强模型的鲁棒性和可解释性。
引入了基于视频内容和活动演变的数据不确定性量化方法,通过相对不确定性学习和分布调整策略提高预测准确性。
实验表明,该框架在多个基准数据集上实现了性能提升,特别是在处理高不确定性样本和长尾分布活动类别时。
摘要
视频活动预测旨在预测未来将发生什么,其应用前景广泛,涵盖机器人视觉和自动驾驶等领域。尽管近期取得了一些进展,但数据不确定性问题,表现为事件标签的内容演变过程和动态相关性,一直被忽视。这降低了模型的泛化能力和对视频内容的深入理解,导致严重的误差累积和性能下降。在本文中,我们解决了不确定性学习问题,并提出了一个不确定性增强的鲁棒视频活动预测框架,该框架生成不确定性值以指示预测结果的可信度。不确定性值用于推导softmax函数中的温度参数,以调节预测目标活动分布。为保证分布调整,我们通过结合活动演变的时间类相关性和语义关系构建了合理的目标活动标签表示。此外,我们通过比较样本对之间的不确定性及其时间长度来量化不确定性为相对值。这种相对策略提供了一种比量化整个数据集的绝对不确定性值更为便捷的不确定性建模方式。在多个主干和基准测试上的实验表明,我们的框架在性能和鲁棒性/可解释性方面取得了有希望的表现。源代码可在链接获取。
关键字
视频活动预测
数据不确定性
相对不确定性学习
鲁棒性
1 引言
智能视频分析技术迅速发展,并在人机交互和自动驾驶等应用中受益匪浅[1]。在各种视频分析任务中,视频活动预测[2]越来越受到研究社区的关注,其目标是通过预测活动类别来预测未来将发生的事情。按照[3],近期在这一挑战性任务上的进展大致分为两类:一类是生成型家族,它们在预测的特征上执行目标活动分类[4]、[5]、[6]、[7]、[8]、[9];另一类是非生成型家族,它们直接基于观察到的特征生成预测结果[10]、[11]、[12]、[13]、[14]。尽管表现出了有希望的性能,但大多数工作直接产生预测输出而没有任何证据支持,导致不可预测的模型行为和低可解释性等严重后果。为了提高鲁棒性和可信度[15]、[16]、[17],预期模型能够以低不确定性产生正确输出,以高不确定性产生错误输出,为我们提供决策支持并避免潜在风险。
实现此目标的关键是对视频数据和预测模型内的不确定性进行建模和管理。在从原始视频数据输入记录场景到由深度神经网络(DNNs)生成的预测输出的三个关键阶段中,存在多种潜在的不确定性来源,即数据获取过程、DNN的设计和训练以及DNN的推理[18]、[19]。因此,视频预测输出中的不确定性源于偶然性和认知性,即数据和模型不确定性[18]、[19]。前者表示在数据收集和注释过程中引入的视频数据的固有属性,即使增加数据量也无法消除。后者包含在模型参数中,涵盖了模型结构的不足、训练数据覆盖范围、训练过程中的错误或其他类似现象。
缓解不确定性的一个直观对策是联合建模偶然性和认知性不确定性[17]。然而,正如[17]、[20]所讨论的,在大数据应用背景下,性能主要取决于数据不确定性的影响,而模型不确定性的贡献似乎可以忽略不计,即可以通过使用蒙特卡洛Dropout等成熟技术[16]、[17]、[21],以很小的努力减少模型不确定性。这一原因可以从两个方面解释。首先,深度学习模型的假设空间(或模型族)足够大,可以从数据中捕获基本事实[22]、[23]。特别是,具有数十亿参数的深度视觉基础模型展现出高表示和预测能力,强有力地表达假设空间。因此,当我们对模型结构和参数施加弱假设时,模型不确定性变得不那么重要,并且可以通过简单地扩大训练数据量来减轻。其次,数据不确定性可以在两者独立建模时补偿模型不确定性[17]、[20]。例如,数据不确定性和模型不确定性在语义分割和深度估计任务中导致像素级预测置信度的相似排名[17]。这表明数据不确定性和模型不确定性之间存在一定程度的等价性,可以从经典机器学习理论如再生核希尔伯特空间(RKHS)[24]中找到类似的关系,该理论连接数据分布和模型参数以构建核化模型。因此,在大规模数据的真实世界场景中,优先考虑数据不确定性是合理的,以便洞察特殊数据集和任务,以提高模型鲁棒性。
在视频活动预测任务中,涉及多种因素产生数据不确定性。例如,在广泛使用的EPIC-KITCHENS-55数据集[25]中,视频由32个人在32个厨房中使用可调节的头戴式GoPro录制。在这个过程中,数据记录的视角和参与者的状态带来了内容表达中的数据不确定性。然后,每个志愿者被要求叙述他们所进行的活动,并且使用亚马逊机械土耳其雇佣普通用户进一步注释这些数据。注释者的偏好和对视频序列理解的多样性进一步导致了活动标签的不确定性。活动视频流中演变过程中的不确定性也值得探索。如图1(a)所示,给定具有相同先行活动的视频,即使是同一个人在同一厨房中也可能采取不同的后续活动。更清楚地说,对于每对活动类别,我们统计包含这两个连续类别的视频实例数量在EPIC-KITCHENS-55中,并获得图1(b)中的方阵。每一行代表一个先行活动演变为其他活动的概率分布,表明从相同的先行活动可能发生大量活动类别。因此,活动语义的演变似乎是高度不确定的。
数据不确定性严重阻碍了预测模型的可靠性。具体来说,它导致对遵循平坦分布或具有大量可能后续活动类别的活动类别的样本的泛化能力差。其次,活动演变的不确定性导致模型捕获特征和活动类别之间的虚假相关性,导致基于视觉上相似的观察视频的模型行为无法解释。数据不确定性还为生成型预测方法的中间表示带来噪声和严重的误差累积[6]。在以前的工作中,数据不确定性在多标签分类框架[8]中得到解决,或通过预测分布采样[12]进行估计。另一种通用解决方案是利用先验知识干预预测或辅助预测任务,以减少不确定性[13]。不幸的是,如果没有全面探索模型学习中的数据不确定性因素,模型的鲁棒性和泛化性很难得到保证。因此,我们提出了一个不确定性增强的生成型视频活动预测框架,该框架从活动类别的内在时间相关性和外部常识知识库中的语义关系对数据不确定性进行建模。
具体来说,与预测输出并行,我们的模型使用一个简单的全连接层产生不确定性值,以指示输出的可信度。大的不确定性值表示模型输出更加多样化但可靠性较低,而小的不确定性值表示模型输出更加确定和可信。我们利用这个不确定性值作为softmax激活函数的温度参数,以调整目标活动类别产生的概率分布的平滑度。考虑到活动演变的特点,我们构建了一个目标活动类别标签空间以保证输出调整,它表示目标活动类别的概率和可能与目标活动同时发生的活动类别集合。与目标活动类别共发生的类别集合是训练数据集中时间活动共现统计和ConceptNet中的相关活动类别的并集[26]。它提供了一种量化活动演变不确定性的方法,并揭示了一组密切相关的视觉概念之间的时间演变模式。我们的目标标签空间比传统的独热标签范式更全面地近似目标活动概率分布。另一方面,它减少了多标签范式中全局存在的标签集之间的虚假相关性,获得了在建模上下文依赖性方面的更多灵活性和表现力。
另一个主要问题是不确定性值的估计机制。将不确定性量化为适用于所有样本的通用规则的绝对值似乎具有挑战性和不可行性。相反,给定一组视频实例,从样本和时间的角度确定它们的不确定性相对值是更合理的,这可以从样本和时间的角度计算。前者是根据训练样本之间的相对预测难度建模的。它首先产生一组样本的预测特征的加权组合,这些样本根据它们的归一化不确定性值进行。然后,模型被迫预测混合特征中的样本的目标活动类别。在训练过程中,模型必须从这些难样本中借用更多信息以确保它们的预测准确性,以便这些样本的权重(相对不确定性值)将被鼓励大于其他样本。对于时间不确定性建模,假设不确定性值将随着观察时间长度τo的增加和预测时间长度τa的减少而逐渐减少。因此,我们设计了一个时间不确定性排名损失函数,以学习具有不同预测时间长度的样本之间的不确定性值的相对顺序,以相同的目标活动类别。这确保了输出的不确定性被全面和规律地估计。
我们将我们的方法应用于EPIC-KITCHENS-55[25]、EPIC-KITCHENS-100[27]、EGATE Gaze+[28]、MECCANO[29]和50 Salads[30]上的多个主干。实验结果表明,我们的方法在全面不确定性建模能力、更好的鲁棒性/可解释性和显著的预测性能方面取得了成效。提出的策略也可以启发广泛的视频理解任务[31]、[32]、[33]、[34]。例如,建模数据不确定性的方式有助于充分利用数据集进行长期视频理解[31]、预测[32]和轨迹预测[33]任务。它也可以启发设计新的代理任务[34],用于自监督视频表示学习,以构建视频基础模型。贡献突出如下:
我们提出了一个不确定性增强的活动预测框架,通过全面探索视频内容和活动演变中的数据不确定性,增强输出鲁棒性。
通过结合时间类相关性和语义关系中的活动演变,以样本和时间的相对方式测量输出不确定性,充分反映了样本和类别间的不确定性,并用于调节预测活动分布,获得改进的模型泛化能力。
在多个基准测试上的实验表明,我们的框架在准确性和鲁棒性/可解释性方面比现有模型更有效,特别是在处理高度不确定的样本和长尾活动类别时。
3 方法
如图3所示,给定一个长度为τo的观察视频,该视频从τs−(τo+τa)开始,到τs−τa结束,视频活动预测任务的目标是通过预测从τs开始,到τe结束的视频的活动类别,来预测τa之后将发生什么。这里,τo、τa和τT分别代表观察时间长度、预测时间长度和目标活动时间长度。按照[5]、[6]、[74]中广泛采用的协议,我们将视频均匀地分成每δ秒一段。然后我们得到在观察时间间隔[τs−(τo+τa), τs−τa]中的no段,在预测时间间隔[τs − τa, τs]中的na段,以及在目标活动时间间隔[τs, τe]中的T段,分别表示为So = {so1, so2, ..., sono},Sa = {sa1, sa2, ..., sana}和ST = {s1, s2, ..., sT}。
3.1 生成型视频活动预测框架
生成型活动预测框架首先生成未来特征表示,然后执行目标活动预测。给定观察视频{V1, ..., VN},我们首先使用编码器-解码器对观察视频内容进行建模,并为每个观察视频Vi产生未来特征表示fi1, ..., fiT。然后,我们使用带有softmax激活函数的全连接层进行目标活动预测,并得到结果pi1, ..., piT,其中pit∈RC,C是目标活动类别的数量。需要注意的是,现有的解决方案在编码器-解码器的设计上有很大差异。例如,经典方法RULSTM[5]基于Rolling-Unrolling LSTMs,而更近期的方法DCR[74]使用基于变换器的模块。它们中的任何一个都可以在我们的框架中使用。
3.2 不确定性增强的视频活动预测
3.2.1 概述
对于活动预测,我们的目标是从潜在目标活动类别的概率分布中产生一个不确定性值,该值表示模型输出的可靠性。如图2所示,我们最初使用编码器-解码器模块为每个观察视频Vi在所有预测时间生成未来特征表示fi1, ..., fiT。这个编码器-解码器模块可以是基于LSTM的、基于变换器的或其它类型的。然后,我们使用两个并行的全连接层进行不确定性增强的目标活动预测。具体来说,Fc用于产生与目标活动相关的概率分布,Fu用于生成预测输出的不确定性向量uit∈RC。根据[62]、[63],我们同时考虑视频数据和活动演变中的不确定性,并取uit的平均值作为近似不确定性值$\hat{u}_i^t$。平均操作有助于减轻不确定性向量中的噪声和异常值的影响。上述策略产生了全面且鲁棒的不确定性估计结果,有利于后续预测概率分布的优化。我们通过调整目标活动概率分布的平滑度来计算$\hat{p}_i^t$。将不确定性以标量值的形式呈现,简化了不确定性估计结果的解释和使用,允许在不同模型和数据集之间进行比较。
3.2.2 分布调整
小的不确定性值表示预测结果是可信的。在这种情况下,模型输出应该集中在少数目标活动类别上,即潜在目标活动类别的概率分布趋于尖锐。相反,大的不确定性值意味着结果不够可靠。模型应该产生多个可能的目标活动类别,并且概率分布应该是平坦的。我们的分布调整策略将平均不确定性值$\hat{u}_i^t$视为softmax函数的温度参数,以调整目标活动概率分布的平滑度,并通过以下方式产生$\hat{p}_i^t = (\hat{p}_i^t,1, ..., \hat{p}_i^t,C)∈RC$:
$$\hat{p}_i^t,j = \frac{\exp(\hat{f}_i^t,j / \hat{u}_i^t)}{\sum_{r=1}^{C} \exp(\hat{f}_i^t,r / \hat{u}_i^t)} $$
其中$\hat{f}_i^t = (\hat{f}_i^t,1, ..., \hat{f}_i^t,C)$。调整后的分布给出了更加校准的预测结果。如图4所示,当不确定性值较小时,概率分布将变得尖锐。相反,它将是平坦的。为了优化上述概率分布并保证这种调整效果,我们构建了一个目标活动标签空间来表示目标活动类别的概率和可能与目标活动同时发生的活动类别集合。首先,我们获得了基于相同先行活动可能在未来并行发生的任何一对活动类别之间的可能性的不确定性矩阵,这是根据两个互补来源计算的。一个是数据集中所有视频的内部时间共现信息。特别是,对于任何两个活动类别,我们统计它们在所有视频中共享的先行类别实例的数量。例如,如果数据集包含活动序列‘打开冰箱,拿牛奶’和‘打开冰箱,关上冰箱’,那么类别对‘拿牛奶’和‘关上冰箱’的共同先行活动类别实例数量就增加了1。通过分析整个数据集,我们得到了内部不确定性矩阵Rli∈RC×C。
另一个是来自外部常识知识图谱ConceptNet的活动类别关系。在ConceptNet中具有有意义边的活动类别在语义上是依赖的。例如,‘HasSubevent’意味着活动类别具有包含关系。这有利于有效地扩展目标活动类别。具体来说,对于常用的数据集,其活动类别是(动词,名词)对,因此我们可以获取Cv个唯一的动词类别和Cn个唯一的名词类别。对于任何两个动词类别,我们计算在ConceptNet中选定关系下只有一个中间节点的连接路径的数量,得到外部不确定性矩阵Rlv e∈RCv×Cv的动词类别。类似地,我们获得外部不确定性矩阵Rln e∈RCn×Cn的名词类别。活动类别的外部不确定性分数简单地通过添加其动词类别和名词类别的外部不确定性来捕获。最后,我们获得了整个外部不确定性矩阵Rle∈RC×C的活动类别。接下来,我们生成可能与目标活动类别c并行共发生的活动类别集合Ac。我们从Rli和Rle的第c行中获得内部不确定性向量Rlc i和外部不确定性向量Rlc e。然后,我们简单地合并Rlc i和Rlc e以获得Ac,根据它们的值,并消除值为零的类别。最后,给定具有目标活动类别c的样本Vi,理想的目标活动可能是给定的类别c或包含在Ac中的类别。只有Ac中的类别才有较低的发生概率。我们构建目标活动类别标签表示pit=(pit,1, ..., pit,C)∈RC,
$$p_{it,j} = \begin{cases} 1 - \alpha & \text{if } j = c \\ \alpha / |Ac| & \text{if } j \in Ac \\ 0 & \text{otherwise} \end{cases} $$
其中α是Ac中活动类别的总权重。|Ac|是Ac中的类别数量。我们不使用Rlc i和Rlc e中的值作为Ac中类别的pit,j,因为它可能导致过拟合并降低模型的泛化能力。预测模型的损失函数如下:
$$L_c = - \sum_{i} \left[ (1 - \alpha) \log \hat{p}_{it,c} + \sum_{c' \in Ac} \frac{\alpha}{|Ac|} \log \hat{p}_{it,c'} \right] $$
它保证了预测模型学习确定性目标活动类别c和可能与目标活动共发生的Ac中的活动类别。通过任务数据集的统计分析得出的构建标签,并借助外部知识库进行增强,真实地反映了视频内容中视觉概念和活动标签之间的相关性。因此,预测模型将考虑更广泛的潜在未来活动,使其能够准确掌握活动演变模式,并避免与数据集偏差相比传统独热标签策略导致的特征和预测输出之间的虚假相关性。与多标签学习技术相比,我们的战略不会不加区别地对待多个标签。相反,它使模型能够在确保给定目标活动的准确性的同时挖掘多种潜在活动。与多标签范式中的标签平滑策略相比,我们的方法不会为所有类别分配统一的低概率值。相反,它根据活动类别之间的关联确定应该分配概率值的类别集。我们的软约束防止模型过度拟合到单一类别,并减少了潜在标签噪声的影响,增强了整体泛化能力。此外,常用的活动预测数据集遭受严重的长尾分布问题。如第(2)方程所示,我们的战略将多数类别与少数类别联系起来,并扩充数据集以平衡活动类别的频率。这防止了模型过度训练极度频繁的活动,并从数据采样的角度缓解了长尾分布问题。我们的战略还为定量分析不确定性,特别是在复杂的视频内容上,提供了解决方案,这将有助于可解释的视频理解。
3.2.3 相对不确定性学习
用绝对值表示和学习不确定性是直接的[62]、[75]。然而,深度神经网络具有强大的学习和记忆能力,倾向于记住难例[62]、[63]、[75]。事实上,没有比较,很难判断绝对不确定性值是否合理或准确。给定一组样本,人们可以轻易估计它们的不确定性值的相对顺序。为此,我们从样本和时间的角度对相对不确定性进行建模。样本相对不确定性。给定一组样本V={V1, ..., VN},模型为每个预测时间t生成特征表示ft=(f1t, ..., fNt)和不确定性值Ut=(u1t, ..., uNt)。然后我们可以通过将Ut除以所有不确定性值的总和来获得相对不确定性值$\hat{U}_t=(\hat{u}_1t, ..., \hat{u}_Nt)$。我们对ft进行$\hat{U}_t$的加权求和,得到混合特征$\hat{f}_t$。模型被迫基于$\hat{f}_t$预测样本V中的目标活动类别。随着训练的进行,模型将预测简单样本的目标活动类别,但仍然无法很好地预测难样本的活动标签,即它们被赋予了较大的不确定性值。这表明难样本的预测上有一个相对较大的分类损失,这反过来迫使混合特征包含更多来自难样本的信息,以实现较小的活动预测损失值,根据使用不确定性值的权重组合来产生混合样本。这个策略确保了预测模型通过与其它样本比较,适当地为难训练样本分配较大的不确定性值。不失一般性,我们在成对的情况下详细说明这个策略。如图5所示,给定两个具有不同目标活动类别的样本Vi和Vj在同一个小批量中,我们获得特征表示fit和fjt以及相应的不确定性值$\hat{u}_i^t$和$\hat{u}_j^t$。然后,我们通过以下方式获得相对不确定性值和混合未来特征表示$\hat{f}_{ij}^t$:
$$\hat{u}_i^t = \frac{\hat{u}_i^t}{\hat{u}_i^t + \hat{u}_j^t}, \quad \hat{u}_j^t = \frac{\hat{u}_j^t}{\hat{u}_i^t + \hat{u}_j^t} $$ $$\hat{f}_{ij}^t = \hat{u}_i^t f_i^t + \hat{u}_j^t f_j^t $$
最后,我们通过$\hat{f}_{ij}^t$获得预测结果$\hat{p}_{ij}^t∈RC$。由于目标活动类别标签也应该是由两个样本的目标活动类别标签混合而成,我们根据第3.2.2节构建以下目标活动类别标签pi,j t=(pi,j t,1, ..., pi,j t,C)∈RC,
$$p_{i,j t,k} = \begin{cases} 1 - \alpha / 2 & \text{if } k = i, j \\ \alpha / |A_{ci,cj}| & \text{if } k \in A_{ci,cj} \\ 0 & \text{otherwise} \end{cases} $$
其中ci和cj分别代表样本Vi和Vj的目标活动类别。α是Aci,cj中活动类别的总权重,它是与样本Vi和Vj的目标活动类别可能共发生的活动类别集合。相应地,我们提出了以下样本相对不确定性损失函数,
$$L_{srul} = - \frac{1}{B} \sum_{i,j} \left[ \frac{1 - \alpha}{2} \log \hat{p}_{ij t,ci} + \log \hat{p}_{ij t,cj} + \sum_{c' \in A_{ci,cj}} \frac{\alpha}{|A_{ci,cj}|} \log \hat{p}_{ij t,c'} \right] $$
其中B是小批量大小。当V中有更多的样本时,样本相对不确定性学习策略的有效性将降低。由于小批量是随机生成的,我们不能确保小批量中样本的多样性。如果这些样本具有相似的预测难度,它们之间的生成相对不确定性值将不会变化很大。相似的相对不确定性值会导致混合特征包含来自每个样本的相似信息量。这不能迫使预测模型捕获难样本的有用特征,并阻碍了方程(7)的有效性。类似于[63],我们根据相对不确定性值构建混合样本。不同的是,我们为混合样本引入了更合理的目标活动标签,基于活动演变的不确定性,而不是像[63]中使用的独热标签。方程(7)使模型能够基于混合特征平等地预测两个目标活动类别,并确保模型也能够预测与目标活动有共现关系的活动。这保证了更全面的不确定性建模结果。时间相对不确定性。给定相同的目标活动,如果我们逐渐增加观察时间长度τo,并相应地减少预测时间长度τa,预测难度将逐渐降低,输出将变得更加可靠,即相应的不确定性值将逐渐减少。我们提出根据listwise排名范式[76]学习不确定性值的相对顺序。给定一个观察视频Vi,我们首先准备M个训练样本$\\{V_1^i, V_2^i, ..., V_M^i\}$,它们具有相同的目标活动类别。如图6所示,从样本$V_1^i$到$V_M^i$,它们的观察视频长度τo逐渐扩展,相应的预测时间长度τa逐渐减少。然后,预测模型将生成不确定性值$U_i = (\hat{u}_i^1, \hat{u}_i^2, ..., \hat{u}_i^M)$。我们从最大到最小对这些不确定性值进行排名,得到$\hat{\pi}_i = (R_{1k}, R_{2M}, ..., R_{M2})$。$R_{l_j}$意味着样本$V_{l}^i$在所有样本中具有第j个最大的不确定性值。理想情况下,不确定性值将逐渐减少,排名结果将是$\pi_i = (R_{11}, R_{22}, ..., R_{MM})$。基于此,我们引入以下排列概率分布[76],这意味着在给定不确定性值$U_i$的情况下获得序列$\pi_i$的概率,
$$P(\pi_i|U_i) = \prod_{j=1}^{M} \frac{\phi(U_i^{\pi_i^{-1}(j)})}{\sum_{m=j}^{M} \phi(U_i^{\pi_i^{-1}(m)})} $$
其中$\phi$是恒等映射函数。$\pi_i^{-1}(j)$表示序列$\pi_i$中第j个位置的样本,即样本$V_j^i$。$U_i^{\pi_i^{-1}(j)}$表示其不确定性值$\hat{u}_{i_j}$。一个训练良好的预测模型应该产生一个非常接近甚至与$\pi_i$相同的$\hat{\pi}_i$。因此,$P(\pi_i|U_i)$将尽可能大。如果我们优化$P(\pi_i|U_i)$的负对数,我们可以确保模型能够产生合理的不确定性排名结果。因此,我们提出了以下时间不确定性排名损失函数来学习不确定性值的相对顺序,
$$L_{trul} = - \sum_{i} \log P(\pi_i|U_i) $$
3.2.4 训练目标
我们框架的整体学习目标函数是:
$$L = L_{srul} + \beta L_{trul} + \gamma L_{wd} $$
其中β和γ是相应的损失权重。由于我们采用了样本相对不确定性学习策略,Lc被融合进Lsrul中。Lwd是所有不确定性值平方和,可以看作是对不确定性表示的正则化。这个损失用于保持不确定性值的稳定性。
3.2.5 讨论
与现有的生成型活动预测方法相比,我们的框架只要求增加一个额外的全连接层来生成表示输出可靠性的不确定性值。它可以以很小的代价插入到大多数现有方法中。它们在处理具有高不确定性的样本和活动类别以及长尾分布时,可以获得更好的泛化能力。
此外,我们的方法为广泛的视频理解任务提供了启示。首先,通过对数据不确定性的定量分析,我们对不同的视频活动数据集有了深入的了解。这有利于视频理解任务的数据使用。选择具有较低不确定性的数据模态更有利于捕获时间关联关系。其次,不确定性在其他序列建模或预测任务中很常见,如视频预测[32]和轨迹预测[33]。我们的分布调整和相对不确定性学习策略也可以应用于这些任务。第三,挖掘类别共现关系和构建精确标签适用于长期视频理解[31]。与独热标签和标签平滑相比,构建的标签更有利于产生有效的视频表示。最后,时间相对不确定性学习策略的想法可以作为自监督视频表示学习的新代理任务[34]。这也为构建视频基础模型和更好地适应各种下游应用铺平了道路。
4 实验
4.1 设置
4.1.1 数据集
EPIC-KITCHENS-55 (EK55) [25]是一个由32个主题在32个厨房中拍摄的第一人称烹饪数据集。它包括125个动词类别和352个名词类别。我们考虑训练集中所有唯一的(动词,名词)类别对,并获得了2513个活动类别。按照[5],我们随机将训练集分成训练集和验证集。测试集分为已见过的厨房(S1)和未见过的厨房(S2)。
EPIC-KITCHENS-100 (EK100) [27]是EK55数据集的大幅扩展,包含89,977个活动片段。它有97个动词类别,300个名词类别,和4053个活动类别。验证/测试分割包含两个子集,未见参与者和尾部类别。
EGTEA Gaze+ [28]记录了第一人称的餐前准备活动,包括10325个实例,有106个活动类别。它提供了三种不同的训练/测试分割,我们报告所有分割的平均性能。
MECCANO [29]是一个与工业环境(例如,工厂,建筑工地,机械车间)中人类行为理解相关的多模态数据集。它提供了20个序列,有299,376个由20个不同参与者标注的帧。它有12个动词,20个名词,和61个独特的动作。我们使用标准的train-val-test分割。
50 Salads [30]包括50个记录沙拉准备任务的视频,由25个不同的演员执行。这些视频包括17个细粒度的活动类别。我们从提供的活动类别中识别出7个独特的动词类别和14个名词类别。按照[30],我们采用五折交叉验证策略进行评估。
4.1.2 指标
对于EK55验证集,我们使用top-5准确率和平均top-5召回率作为衡量标准。平均top-5召回率是针对提供的多镜头动词、名词和活动的列表平均的。对于EK55测试集,我们使用top-1和top-5准确率作为衡量标准。对于EK100,我们报告top-5召回率。对于EGTEA Gaze+和MECCANO,我们报告top-5准确率。对于50 Salads,我们使用类别平均准确率进行性能比较。
4.1.3 不同的主干
基线。图2中的编码器-解码器被选为GRU-GRU块。我们将观察视频长度设置为1.5s,并选择δ为0.25s。两个并行的全连接层用于产生目标活动类别的概率分布和相应的不确定性值。预测视频片段na被设置为8。模型将在未来的0.25s、0.5s、0.75s、1s、1.25s、1.5s、1.75s和2s时间戳预测目标活动类别。
RULSTM。其编码器-解码器模块是Rolling-Unrolling LSTMs。更多细节,请参考[5]。
DCR。它采用基于变换器和rulstm的编码器-解码器模块。为确保主干的多样性,我们选择基于变换器的DCR主干。更多细节,请参考[74]。
ActionBanks。编码器-解码器模块是时间聚合块。更多细节显示在[77]。
FUTR。编码器-解码器模块是基于自注意力和交叉注意力构建的。更多细节显示在[78]。
在实验中,我们将模型应用于上述主干之上,不确定性增强的版本分别表示为Ub-Baseline、Ub-RULSTM、Ub-DCR、Ub-ActionBanks和Ub-FUTR。
4.1.4 实现细节
为了公平比较,我们采用广泛使用的多模态特征。具体来说,对于EK55和EK100,我们使用TSN [79]的RGB特征,TSN的Flow特征和FRCNN [80]的OBJ特征,这些特征由[5]提供。此外,我们使用TSM [81]提供的RGB特征。我们还使用irCSN152 [82]提供的EK55的RGB特征。对于EGTEA Gaze+,我们使用TSN提供的RGB和Flow特征。对于MECCANO,我们使用提供的OBJ特征。
所有实验都在PyTorch框架下实现。对于基线,我们使用SGD优化器,小批量大小为128。动量和权重衰减分别设置为0.9和0.00005。初始学习率设置为0.05。总训练周期数为100。对于其他主干,我们遵循原始论文的参数设置。对于我们模型的参数,我们在表1中记录了α、β和γ的最佳设置。此外,Ub-FUTR的α、β和γ设置为0.2、0.05和1e-4。所有参数通过交叉验证确定。
4.1.5 概念网络中选择的关系
概念网络是一个免费的语义网络,旨在帮助计算机理解人们使用的单词[26]。它包含单词之间的多种关系。为了更好地建模活动类别之间的语义相关性,我们选择了以下有意义的关系‘MotivatedByGoal’、‘HasPrerequisite’、‘MannerOf’、‘UsedFor’、‘Entails’、‘LocatedNear’、‘HasFirstSubevent’、‘HasSubevent’、‘HasLastSubevent’、‘Causes’、‘CreatedBy’、‘ReceivesAction’、‘CausesDesire’和‘CapableOf’。
4.2 逐项比较
EK100和EK55的结果分别显示在表2和表3中。我们可以发现,我们的框架在不同特征和不同主干上都取得了一致的改进。如表3所示,Ub-RULSM在FLOW特征上的top-5准确率提高了1.5%,而在OBJ特征上仅提高了0.9%。这主要是因为光流表示包含了更多的噪声带来的不确定性。我们的方法在不同大小的数据集上的效用差异很大。例如,在大型数据集EK100上,Ub-RULSTM在OBJ特征上的性能提升最大,但在小型数据集EK55上,Ub-RULSTM在FLOW特征上的性能提升最显著,因为光流特征在大型数据集上的活动预测贡献较小。此外,在同一主干和特征下,我们提出的框架在EK55上的性能提升比在EK100上更显著。这主要是因为EK100的数据集规模较大。随着数据集规模的增加,数据不确定性的影响减小,导致我们的框架性能提升的减少。
4.3 学习到的不确定性值的可靠性
在噪声数据上的可靠性。我们进行实验以评估估计的不确定性值是否能够捕获数据中固有的“噪声”,从而证明我们框架的可靠性。我们将EK55中的样本视为干净数据。然后我们故意引入高斯噪声来污染它们,产生质量较低的样本。对于特征张量f,我们生成一个噪声张量ϵ并用f = f + η ∗ ϵ污染干净数据,其中ϵ ∼ N(0, 1),η控制污染的强度。我们逐渐变化η以观察数据不确定性和预测性能如何演变。表4表明,随着η的增加,噪声样本的估计不确定性增加,预测性能显著下降,这共同表明产生的不确定性值可以有效捕获样本的质量。
在高不确定性样本上的可靠性。为了说明学习到的不确定性值的质量,我们研究预测性能如何受到排除高不确定性样本的影响。对于这种分析,我们使用准确率与拒绝率[63]、[83]指标。当准确率随着移除高不确定性样本的比例增加而持续提高时,这个指标表明预测模型能够有效捕获数据不确定性。因此,我们首先根据它们的不确定性值从高到低对样本进行排序。然后,我们逐步移除一定比例的高不确定性样本,并使用剩余的样本评估预测准确率。表5清楚地揭示了Ub-RULSTM和Ub-DCR在所有情况下都取得了更好的性能,这表明派生的不确定性值与预测置信度的相关性比其他方法更强。这验证了不确定性值在提高整体预测性能中的有效性。
理解不确定性学习能力。为了深入理解不确定性学习能力,我们在图7中可视化了Ub-DCR和Ub-RULSTM在EK100上不同特征模态下学习到的不确定性分布。为了方便比较,我们将学习到的不确定性值标准化到[0, 1]。垂直轴表示样本数量。我们可以看到Ub-DCR通常比Ub-RULSTM产生更小的不确定性值,这是由于基于变换器的Ub-DCR在建模长期特征相关性方面的强大能力。此外,我们观察到Ub-DCR在RGB特征下的样本产生更高的不确定性值。相反,Ub-RULSTM在OBJ特征下的样本产生更高的不确定性值。显然,不同特征模态中包含的数据不确定性差异很大,每个主干在建模这些多样化特征模态中的数据不确定性方面都有其独特的优势。
4.4 我们框架的鲁棒性
在不确定类别上的预测性能。如第3.2.2节所述,我们获得了活动类别的内部和外部不确定性矩阵。对于每对活动类别,我们首先合并它们的内部和外部不确定性值,然后根据它们的合并值对它们进行排名。接下来,我们将所有活动类别对分成四部分,并计算DCR和Ub-DCR在每部分的预测性能。可视化结果如图8所示。在“前200”部分,即不确定性值最高的活动类别对,Ub-DCR比DCR实现了更高的预测性能,DCR和Ub-DCR之间的性能差距也是最大的。随着活动类别的不确定性值减小,DCR和Ub-DCR之间的性能差距减小。这主要是因为活动类别之间的共现可能性逐渐减小。如果活动类别之间存在强烈的共现关系或大的活动演变不确定性,即给定包含相同活动类别的视频,它们可能演变成任何活动类别对,Ub-DCR可以通过方程(2)准确地将标签与有效特征关联起来,避免独热标签引起的混淆。这些观察结果表明,我们的框架能够有效处理具有高不确定性值的活动类别。
在不确定样本上的预测性能。我们首先根据Ub-DCR产生的不确定性值对样本进行排名。然后,我们将所有样本分成四部分,并在图9中可视化DCR和Ub-DCR在每部分的预测性能。在“前1/4”部分,即不确定性值在前1/4的样本,Ub-DCR比DCR实现了更高的预测性能,DCR和Ub-DCR之间的性能差距也是最大的。随着样本不确定性值的减小,DCR和Ub-DCR之间的性能差异减小。这些观察结果表明,我们的框架具有良好的鲁棒性,能够有效处理具有高不确定性值的样本。
在尾部类别上的预测性能。如表7和表10所示,我们的方法在EK100的尾部类别子集上的相对预测性能改进比在整个验证集(或测试集)或未见参与者子集上要高得多。例如,Ub-DCR在“Act”的尾部类别子集上比DCR†提高了47.6%的预测性能,而Ub-DCR在整个测试集的“Act”上只比DCR†提高了26.9%的性能。这表明我们的方法能够处理具有长尾分布问题的数据。为了全面验证这一点,我们在图10中可视化了DCR和Ub-DCR在EK100上的目标活动分类器权重范数。我们将目标活动类别按样本数量降序排列,并显示了它们的权重向量的L2范数。与DCR相比,尾部类别的权重范数倾向于更大,而头部类别的权重范数相对较小。这意味着我们的框架在头部和尾部类别之间达到了更好的权衡。
此外,我们在DCR上应用了类平衡损失CB [84],以比较不同方法在处理长尾分布问题上的能力。结果如表6所示。我们可以发现,Ub-DCR在尾部类别子集上的性能优于DCR+CB。与现有预测方法使用的独热标签相比,我们的策略确保构建的标签既包含原始目标活动,也包含其他可能同时发生的活动。这在某种程度上将少数活动类别与多数类别联系起来,并从数据采样的角度解决了长尾分布问题。此外,我们可以看到DCR+CB的性能不如DCR。这主要是因为活动类别的构建方式。在EK100中,活动类别由所有独特的(动词,名词)类别对组成,导致许多类别的样本大小为1或0。然而,类平衡损失CB的损失权重是根据类别样本数量调整的,以解决长尾分布问题。在这种情况下,许多经典算法无法解决活动预测任务数据集中的长尾问题。
4.5 联合探索数据和模型不确定性
虽然我们的框架专门设计用于建模数据不确定性,但承认输出可能包含模型不确定性是很重要的。我们将探索预测不确定性中模型不确定性的比例以及模型不确定性对最终结果的影响。
通过控制数据集大小来量化模型不确定性。由于模型不确定性可以通过足够的数据在很大程度上减轻[18]、[19]、[22],我们从模型不确定性随训练数据大小变化而变化的洞察开始,而数据不确定性不会[17]。具体来说,我们评估模型不确定性的比例,并分析在不同训练集大小下预测不确定性值的变化。我们改变了EK55的训练集大小到3/4、1/2和1/4,然后总结Ub-DCR的不确定性值和预测性能的变化在表8中。我们可以看到,随着训练集大小的增加,不确定性值略有增加,与绝对数据不确定性值相比可以忽略不计。显然,预测不确定性只包含很少的模型不确定性。
使用蒙特卡洛Dropout量化模型不确定性。我们采用广泛使用的蒙特卡洛Dropout (MCDO)方法[16]、[17]、[21]来明确研究数据和模型不确定性之间的相关性。MCDO是一种简单但有效的方法来捕获模型不确定性。通过在测试时激活dropout层,并在给定样本集上执行T次前向传递,可以获得关于预测结果的多组概率分布。这允许我们使用均值和熵等操作来估计模型不确定性。我们将MCDO方法应用于EKI55和EK100上的Ub-DCR,并在表9中总结数据和模型不确定性的变化以及它们对预测性能的影响。我们使用50个样本进行蒙特卡洛Dropout。我们可以看到,数据不确定性保持相对稳定,而模型不确定性确实存在。此外,模型和数据不确定性的同时检查可以在EK55上进一步提高预测性能。然而,在EK100上并非如此,这可能归因于随着数据集规模的增加,模型不确定性的影响减小。由于模型不确定性可以轻松地使用MCDO建模,并且可以在涉及大数据和深度神经网络的应用场景中轻易移除[17]、[20]、[22]、[23],本文优先关注数据不确定性学习的挑战。
4.6 与最新技术的比较
EPIC-KITCHENS-100。验证集和测试集的比较结果分别显示在表7和表10中。如[74]所示,DCR在验证集上融合了来自TSM和TSN的RGB特征模型以及FRCNN的OBJ特征模型的结果,权重为1:1:1。测试集上DCR的结果是通过融合来自TSM和TSN的RGB特征模型以及AVT模型的结果,权重为1:0.5:1获得的。由于AVT模型结合了多个AVT模型变体和多个主干的预测,它们难以复现。因此,我们在验证集和测试集上通过融合Ub-DCR在来自TSM和TSN的RGB特征以及FRCNN的OBJ特征的结果,权重为1:1:1来捕获预测结果。为了公平比较,我们也在测试集上实现DCR†,设置与Ub-DCR相同。
如表7和表10所示,我们的框架在模型集成设置中显著提高了RULSTM和DCR主干的预测性能。通过比较表2、表7和表10中的预测结果,我们框架在模型集成设置中的改进更为突出。如上所述,每种特征模态中包含的数据不确定性是不同的。因此,从多个特征模态建模数据不确定性可以确保更好的预测性能。此外,我们注意到RULSTM的性能不如ActionBanks,因为ActionBanks使用了额外的ROI特征。相反,Ub-RULSTM的性能优于ActionBanks。Ub-DCR在验证集上的预测性能高于其他竞争者。值得注意的是,AVT和MeMViT都是基于原始视频数据训练的模型,而我们只使用了预先提取的特征。此外,我们在未见参与者子集上的性能改进表明,我们的框架即使在“零样本”设置下也具有泛化能力。
EGTEA Gaze+。如表11所示,Ub-RULSTM和Ub-DCR的预测性能在所有预测时间上都高于RULSTM和DCR。
MECCANO。如表12所示,Ub-RULSTM和Ub-DCR的预测性能在所有预测时间设置上都高于RULSTM和DCR。这表明我们的框架也适用于工业场景中展示人类行为的视频,而不仅仅是厨房活动。
50 Salads。我们进行了长期预测设置下的实验。按照[4],输入是每个视频的特定百分比(即,20%),目标是预测接下来子序列的活动,该子序列占视频的百分比(即,10%,20%,30%和50%)。如表13所示,Ub-FUTR的性能在大多数预测时间戳上高于FUTR。这表明我们的框架在第三人称视频活动中也有效,特别是在长期预测设置下。
EPIC-KITCHENS-55 数据集。验证集和测试集的比较结果分别展示在表14和表16中。在表14中,Ub-RULSTM(或Ub-DCR)在大多数预测时间点上的预测性能显著提高。我们的框架还在测试集上提高了每个主干模型的性能。由于测试集S2包含了训练集中未出现的场景,这种性能提升表明我们的方法能够泛化到视频事件预测中未见过的场景。此外,通过使用特别设计的权重来融合不同模型的结果,DCR在验证集和测试集上比其他方法实现了更高的性能。
具体来说,如[74]所示,在验证集上,DCR融合了在TSM、TSN和irCSN152的RGB特征以及FRCNN的OBJ特征上训练的模型的预测结果,权重比例为1:1:1:1。在测试集上,DCR的结果是通过融合来自TSM和irCSN152的RGB特征的模型预测,以及AVT模型集成结果,测试集S1的权重比例为1:1:1,测试集S2的权重比例为0.5:1.5:1.5。由于Ub-DCR在模型集成设置中的有效性已在表7和表10中得到证明,我们仅比较了Ub-DCR与TSM的RGB特征下的DCR。实验结果表明,我们的框架仍然有效。
4.7 消融研究
消融研究在EK55验证集上进行,使用来自TSN的RGB特征模型。结果如表15所示,其中‘disadj’和‘optlabel’分别表示分布调整策略和构建更精确的目标活动标签。‘srul’和‘trul’分别表示样本相对和时间相对不确定性学习策略。分布调整的效果。通过比较表15中的Ub-Baseline和‘-disadj’行的结果,没有分布调整时性能显著下降,这表明使用不确定性值调整生成的目标活动类别概率分布的有效性。
样本相对不确定性学习的效果。如表15所示,没有样本相对不确定性学习时,预测性能低于Ub-Baseline。此外,我们进行了实验,以查看在此策略中使用的样本数量的影响。如表17所示,使用更多样本会降低此策略的有效性,并导致所有时间戳的预测性能较差,因为相对不确定性值的多样性降低。随着样本数量的增加,它们的归一化相对不确定性值之间的差异将逐渐缩小,而原始绝对不确定性值差异很大。相似的相对不确定性值不能保证混合特征包含更多来自难样本的信息。使用这些过度平滑的不确定性值调整目标活动类别的概率分布将导致性能不佳。
时间相对不确定性学习的效果。从表15中,我们可以发现,在没有时间相对不确定性学习策略的情况下,大多数时间戳的预测性能在不同程度上降低,这表明这种策略在建模具有时间演变特征的视频内容中特别有用。不确定性向量上均值操作的效果。我们比较了我们使用的均值池化操作与最大值和最小值池化操作,以评估获得不确定性值的方式的有效性。如表18所示,结果表明均值池化操作实现了最佳的预测性能。均值池化的优势在于它包含了不确定性向量中的所有元素,提供了对数据不确定性的全面理解。它根据视频数据和活动演变特征更精确地调整目标活动的概率分布。此外,均值操作减少了不确定性向量中的噪声和异常值的影响。因此,它产生了更稳定的估计,不易受到极端值的影响。
构建标签的效果。通过比较表15中的Ub-Baseline和‘-optlabel’,我们明显看出,我们构建的目标活动标签在大多数情况下一致提高了预测性能,证明了这种策略的有效性。此外,我们从两个方面揭示了这种策略的优势。
首先,我们评估了在此策略中使用的内部和外部不确定性矩阵的合理性。我们引入了这种策略的三个变体来训练Baseline模型。‘Ex’表示仅使用外部不确定性矩阵,‘In’表示仅使用内部不确定性矩阵,‘Ex & In’表示同时使用两者。如表19所示,外部不确定性矩阵将预测结果的top-5准确率从34.0%提高到35.3%,预测时间为0.25s。此外,我们可以通过观察Baseline和Baseline+In之间的性能差距来很好地感知内部不确定性矩阵的有效性。当使用两者时,性能得到了进一步的提升。值得注意的是,Baseline和‘In’之间的性能差距比Baseline和‘Ex’之间的性能差距更大,这表明内部不确定性矩阵提供了比外部不确定性矩阵更有价值的指导,因为它是直接通过数据集统计获得的。相比之下,外部不确定性矩阵所表达的知识更通用,与数据集无关。
其次,我们验证了我们提出的标签表示与独热标签和标签平滑方法相比的优势。我们构建了四种类型的标签来训练Ub-Baseline,‘one-hot’表示使用原始目标活动标签,‘ls (0.2)’或‘ls (0.4)’表示使用平滑值为0.2或0.4的标签平滑。如表21所示,标签平滑策略可以提高预测性能,因为它可以避免模型过拟合。我们的战略通过更好地处理视频内容演变中的相关活动标签超越了它们。
相对不确定性学习策略的泛化能力。为了证明我们的相对不确定性学习策略在面对长尾分布设置中的高不确定性类别时的泛化能力,我们在EK100上构建了‘Uncertain’ Classes和‘Tail & Uncertain’ Classes验证子集,除了原始的Unseen Classes和Tail Classes验证子集。具体来说,对于每对活动类别,我们首先合并获得的内部和外部不确定性值,然后按它们的合并值降序排列。随后,我们选择合并值大于给定阈值的活动类别以形成‘Uncertain’ Classes验证子集。相应地,‘Tail & Uncertain’ Classes验证子集是尾部类别和不确定类别在验证集中共享的活动类别。我们比较了Ub-DCR和Ub-DCR,其中Ub-DCR与Ub-DCR相同,只是排除了相对不确定性学习策略。在此基础上,我们比较了Ub-DCR和Ub-DCR*在‘Unseen’ classes、‘Tail’ classes、‘Uncertain’ classes和‘Tail & Uncertain’ classes上的性能差距,如表20所示。我们得出结论,我们的相对不确定性学习策略在处理‘Unseen’ classes、‘Tail’ classes和高不确定性类别时显著提高了泛化能力。
定性分析。我们在图11(a)和图11(b)中可视化了DCR、Ub-DCR、RULSTM和Ub-RULSTM主干在EK100验证集上RGB特征来自TSN的预测结果。我们可以看到,在某些情况下,Ub-DCR(或Ub-RULSTM)给出了正确的目标活动预测结果,但DCR(或RULSTM)没有。
为了加深对我们框架的理解,我们在图12中展示了一些失败案例。在第一个案例中,由于观察到的活动和目标活动之间缺乏显著的语义相关性,我们构建的标签效果不佳,导致预测错误。在第二个例子中,鉴于观察到的视频片段,尽管预测操作者从冰箱中取出物体,但观察到的视频缺乏特定于目标活动的信息。鉴于潜在的未来活动数量众多,我们框架的预测可能不准确,因为数据集为给定视频分配了单一的目标活动。尽管如此,我们框架的前5名预测结果仍然合理。
5 局限性
尽管我们的不确定性增强视频活动预测框架在不确定性建模和提高各种主干的预测性能方面表现良好,但仍有几个问题需要考虑。
我们专注于研究视频活动预测任务中的数据不确定性。值得注意的是,未来研究开发更有效的方法同时建模数据和模型不确定性具有很大的潜力。
内部不确定性矩阵依赖于数据集,难以转移到其他数据领域。如果将类似的想法应用于视频基础模型训练,可能需要开发更通用的计算方案。
为了确保不确定性值的准确性,我们需要为不同的主干选择适当的α和β值,这导致了模型复杂度的轻微增加。
6 结论
在本文中,我们系统地研究了视频活动预测中的不确定性学习问题,并提出了一个不确定性增强的鲁棒活动预测框架,该框架可以轻松地插入到各种现有模型中。它产生了一个不确定性值来指示模型结果的可信度。我们的方法显著提高了现有模型在处理具有高不确定性的样本和活动类别或长尾分布时的鲁棒性。提出的活动演变不确定性测量为可解释和可信的视频理解提供了启示。此外,分布调整和相对学习策略可以启发各种视频理解任务,如长期视频分类。在未来的工作中,我们的目标是通过将不确定性建模更深入地融入模型内部,并以更细的粒度实现,从而开发出具有强大解释性和高性能的视频理解模型,并相应地更好地规范模型的学习行为。
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。