TPAMI 2024 | 层次增强与蒸馏:面向类别增量音频-视觉视频识别的研究

文摘   2024-11-04 19:00   辽宁  

点击下方“计算机书童”卡片,每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目:Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition

层次增强与蒸馏:面向类别增量音频-视觉视频识别的研究

作者:Yukun Zuo; Hantao Yao; Liansheng Zhuang; Changsheng Xu

源码链接: https://github.com/Play-in-bush/HAD


摘要

音频-视觉视频识别(AVVR)通过整合音频和视觉线索来准确分类视频。尽管当前使用提供的数据集的方法取得了令人满意的结果,但它们在现实世界中新类别出现时保留历史类别知识方面面临挑战。目前还没有专门的方法来解决这一问题,这促使本文探索类别增量音频-视觉视频识别(CIAVVR)。CIAVVR旨在保留存储数据和过去类别模型中包含的历史知识,以防止灾难性遗忘。音频-视觉数据和模型在本质上具有层次结构,其中模型包含低级和高级语义信息,数据包括片段级、视频级和分布级空间信息。充分利用这些层次结构对于保留数据知识和模型知识至关重要。然而,现有的图像类别增量学习方法并没有明确考虑这些层次结构。因此,我们引入了层次增强和蒸馏(HAD),其中包括层次增强模块(HAM)和层次蒸馏模块(HDM)。这些模块有效地利用了数据和模型的层次结构。具体来说,HAM使用了一种新颖的增强策略——片段特征增强,以保留层次模型知识。同时,HDM采用了新设计的层次逻辑蒸馏(视频-分布)和层次相关蒸馏(片段-视频)来保持样本内和样本间的层次知识。在四个基准测试(AVE、AVK-100、AVK-200和AVK-400)上的评估表明,HAD有效地捕获了层次信息,增强了保留历史类别知识和性能。我们还提供了理论分析来支持片段特征增强策略。

关键字

类别增量学习,音频-视觉视频识别,层次增强和蒸馏。

I. 引言

音频-视觉视频识别[1]、[2]、[3]、[4]、[5]结合了音频和视觉数据,用于准确的分类,并依赖于大量静态数据集的标注视频进行训练[6]、[7]。将新类别数据整合到这些数据集中需要大量的计算资源,但仅在新类别数据上训练会导致灾难性遗忘[8]、[9],抹去对旧类别的知识,降低性能。由于涉及的数据比图像识别更丰富,这一问题在音频-视觉识别中更具挑战性,如图1所示。由于还没有特定的研究解决这一领域中的灾难性遗忘问题,我们探索类别增量音频-视觉视频识别(CIAVVR)来解决音频-视觉视频识别中的这一问题。

CIAVVR的核心思想是保留可用存储数据和过去类别模型中的历史类别知识,以克服灾难性遗忘。与图像任务不同,音频视觉任务在模型和数据中都涉及层次结构,如图2所示。具体来说,模型中的低级和高级特征分别体现了低级和高级语义知识。此外,数据中的视频分布、视频和片段包括分布级、视频级和片段级的空间知识。因此,充分利用数据和模型中的层次结构对于保留数据知识和模型知识至关重要。然而,当前的图像类别增量学习方法并没有充分考虑这些层次结构,限制了它们在CIAVVR中的有效性。基于增强的方法[10]、[11]、[12]专注于低级或高级特征增强,以多样化过去数据并解决类别不平衡问题,但忽略了联合层次模型学习。此外,仅考虑低级和高级特征增强会导致增强错误信息的累积。基于蒸馏的方法[10]、[13]、[14]使用逻辑或相关蒸馏捕获样本内和样本间的数据知识,但未能描述层次数据结构中的知识。

为了解决CIAVVR中的灾难性遗忘问题,充分利用过去类别的数据和模型中的层次结构是保留模型和数据知识的关键。对于层次模型知识保留,我们结合了低级和高级特征增强,以多样化各个语义层次的示例数据,缓解类别不平衡。我们还理论上证明了不同级别的特征增强特别影响其相应网络层更新,减少错误累积。对于层次数据知识保留,我们联合考虑了层次逻辑和层次相关蒸馏,以捕获样本内和样本间的知识。具体来说,我们使用视频和分布级别的逻辑蒸馏来掌握层次样本内知识。同时,我们应用片段和视频级别的相关蒸馏来理解层次样本间知识,重点关注不同片段和视频之间的特征相似性。

在我们的研究中,我们介绍了CIAVVR的层次增强和蒸馏(HAD)框架,包括层次增强模块(HAM)和层次蒸馏模块(HDM),分别用于保留模型和数据知识。对于层次模型知识保留,HAM采用了一种新颖的片段特征增强来增强存储数据的泛化能力,通过低级和高级特征增强。我们阻止了这些增强在后续网络层更新中的交互,从而避免了错误信息的累积。对于保留层次数据知识,HDM引入了层次逻辑(视频-分布)和相关(片段-视频)蒸馏方法。这些方法分别维护样本内和样本间的知识。由于视频分布缺乏明确的概率密度函数,我们使用提供数据的凸包来创建代理视频分布。此外,片段-视频相关蒸馏侧重于蒸馏不同片段和视频之间的特征相关性。

这项工作的贡献总结如下:(1)我们引入了一种新颖的类别增量音频-视觉视频识别(CIAVVR)范式,利用音频-视觉信息从新类别中学习,同时不忘记旧类别知识。(2)我们为CIAVVR提出了层次增强和蒸馏(HAD)框架,包括层次增强模块(HAM)和层次蒸馏模块(HDM),分别用于保留模型和数据知识。(3)我们在HAM中开发了一种新的片段特征增强策略,用于层次模型知识,以及在HDM中为层次数据知识开发了新的video-distribution逻辑和snippet-video相关蒸馏策略。我们还提供了片段特征增强必要性的理论分析。(4)在四个基准测试上的评估表明了所提出框架的优越性,例如,在AVE 3阶段(6阶段)、AVK-100 5阶段(10阶段)、AVK-200 10阶段(20阶段)和AVK-400 20阶段(40阶段)中分别获得了88.9%/85.1%(87.0%/83.1%)、90.1%/86.6%(89.8%/86.3%)、84.6%/78.0%(84.3%/77.6%)和78.2%/69.5%(77.6%/69.1%)的平均增量准确率/最终增量准确率。

III. 方法

A. 问题定义

类增量音频视觉视频识别(Class Incremental Audio-Visual Video Recognition, CIAVVR)的目标是在不忘记旧类别知识的情况下学习新的音视频类别。形式上,给定一系列任务 个任务 ,每个任务 有一个特定任务的类别集合 ,其中不同任务的类别集合是互不相交的,即如果 ,则 。为了保留以前任务的知识,在步骤 ,一小部分来自以前任务 的示例数据存储在有限大小 的记忆库 中。对于第 个任务,CIAVVR 使用数据集 和记忆库 中的示例数据构建一个健壮的音视频模型,其中 表示从视频空间 中采样的视频, 表示其视频标签,属于任务特定类别集合 表示视频 和标签 的联合分布。推断出的音视频模型必须在增量步骤 时准确分类所有以前的 个任务和当前第 个任务的测试数据集
给定视频 ,我们将其划分为 对不重叠的音视频片段对,例如,,其中 分别表示第 个视频片段的音频和视觉数据。音视频模型的目标是通过考虑所有音频片段 和视觉片段 来对视频 进行分类。音视频模型 包括三个组件:音视频嵌入模块 、音视频融合模块 和分类器模块 。音视频嵌入模块 采用预训练和冻结的音频和视觉模型来提取低级模态特征 ,包括音频片段级特征 和视觉片段级特征 。因此,CIAVVR 的主要重点是学习和遗忘音视频融合模块和分类器模块,而不是冻结的预训练音视频嵌入模块。由于存储过去类别的视频需要大量的内存,因此存储了以前任务的示例视频的低级模态特征 以保留知识。具体来说,对于第 个任务的增量学习,存储了以前 个任务的示例数据 的低级模态特征 在记忆库 中以保留知识。此外,我们表示当前数据 中的低级模态特征集 。音视频融合模块 利用混合注意力网络 [1] 执行 之间的多模态融合,产生融合的音频特征 和视觉特征 。通过平均池化获得视频特征
其中 分别表示视频级音频特征和视觉特征。 使用获得的视频级特征 ,分类器 预测其类别。音视频模型的目标是准确分类 中的当前任务数据,
其中 表示交叉熵损失。
CIAVVR的关键挑战是如何在训练新任务的同时保留旧任务的知识。因此,我们提出了一个新颖的层次增强和蒸馏(Hierarchical Augmentation and Distillation, HAD)框架,包括层次增强模块(Hierarchical Augmentation Module, HAM)和层次蒸馏模块(Hierarchical Distillation Module, HDM),通过模型和视频数据的层次结构来保留模型知识和数据知识。

B. 层次增强模块

层次增强模块(Hierarchical Augmentation Module, HAM)探索模型中的层次结构,以保留模型知识。我们提出了一种新颖的片段特征增强策略,同时从低级和高级角度增强旧示例 ,保留历史模型知识,并增强模型的泛化能力。此外,为了减轻增强引起的错误信息积累,我们使不同级别的特征增强更新不同模块的参数。
给定记忆库 中的历史样本的低级模态特征 ,我们执行高斯增强 以生成增强的模态特征
其中 表示高斯增强的强度。对于低级增强的模态特征 ,它仅用于通过固定分类器 更新音视频融合模块
其中 是音视频融合模块 的参数, 表示仅更新参数
为了减轻分类器 的类别不平衡影响,采用高级视频特征增强来更新分类器。给定历史样本的 ,我们首先应用音视频融合模块生成相应的视频级特征 与 (1)。然后我们对视频级特征 执行高斯增强 进行高级视频特征增强
随后,增强的特征 用于优化分类器
其中 表示分类器 的参数。
最后,HAM 的总损失为

C. 层次蒸馏模块

除了考虑模型层次结构以保留模型知识外,数据中的层次结构也可以被利用以保留数据知识。利用数据中存在的层次结构,我们引入了层次蒸馏模块(Hierarchical Distillation Module, HDM)来维护历史数据知识,减少灾难性遗忘。HDM 包括层次逻辑蒸馏(Hierarchical Logical Distillation, HLD)和层次相关蒸馏(Hierarchical Correlative Distillation, HCD)。HLD 用于蒸馏给定视频和从视频分布中采样的视频之间的逻辑概率。HCD 负责蒸馏不同片段在每个视频中的特征相似性以及视频空间中不同视频之间的特征相似性。

1) 层次逻辑蒸馏

给定历史记忆 和当前任务的数据 ,我们执行基于历史模型 和当前模型 之间预测的逻辑概率之间的视频-分布逻辑蒸馏。 由于历史记忆仅存储了历史样本的低级模态描述,因此模型 ,包括音视频融合模块 和分类器模块 ,被用来蒸馏低级模态描述的知识。具体来说,通过固定历史模型 ,我们约束当前模型 基于视频级逻辑蒸馏 与过去模型产生一致的逻辑概率,基于历史样本:
其中 表示 Kullback-Leibler 散度。
然而,视频级逻辑蒸馏只关注每个视频的个体知识,忽略了从视频分布中采样的视频的潜在个体知识。理想情况下,我们想要蒸馏来自旧任务分布 和当前任务分布 的任何视频的知识:
因此,我们利用记忆库 中的所有给定低级模态特征和当前任务 中的数据来获得 的代理分布。具体来说, 的代理分布是通过使用集合 和集合 中的所有低级模态特征的凸包 来构建的:
其中 分别表示集合 中的低级模态特征 的数量。 描述了第 个低级模态特征 的权重。权重首先从高斯分布 中采样,然后标准化到 进行凸组合。通过调整凸组合权重 ,我们模拟了数据分布 中不同视频的低级模态特征。注意,由于 GPU 内存限制,我们使用当前/过去任务数据的批量样本的低级模态特征进行凸组合,以在每个时代模拟来自数据分布 / 的所有视频的低级模态特征。
中采样的数据用于逻辑蒸馏,使用 (12)。
层次逻辑蒸馏的总损失为

2) 层次相关蒸馏

层次逻辑蒸馏(HLD)通过考虑层次内样本知识来保留历史个体知识。然而,它忽略了由跨样本知识衍生的历史相关知识,这也可以有助于数据知识保留。我们提出层次相关蒸馏来解决这个问题,通过蒸馏每个视频中不同片段之间的特征相似性以及视频空间中不同视频之间的特征相似性,即片段级相关知识和视频级相关知识。此外,由于每个视频包含音频和视觉信息,我们考虑每个模态的层次相关蒸馏。为了简化描述,我们以下讨论中省略了模态标识符。
对于视频级相关蒸馏,我们利用增强样本 中和未增强样本 之间的视频级特征相似性:
其中 表示第 个增强低级模态特征 中和第 个未增强低级模态特征 之间的视频级特征相似性, 表示第 个增强低级模态特征 中的视频级特征, 描述第 个未增强低级模态特征 中的视频级特征。此外,视频级相关蒸馏 使用历史模型 和当前模型 之间的视频相似性矩阵进行:
其中 是由 在固定的历史模型 和当前模型 中组成的视频相似性矩阵。
对于片段级相关蒸馏,我们计算增强片段的融合特征 和未增强片段的融合特征 中之间的相似性:
其中 表示第 个增强片段的融合特征 和第 个未增强片段的融合特征 之间的相似性。
随后,我们对所有样本在 中的片段相似性矩阵进行片段级相关蒸馏 ,使用历史模型 和当前模型
其中 是在 中由 在历史模型 和当前模型 组成的片段相似性矩阵。
结合音频模态和视觉模态中的层次相关蒸馏,层次相关蒸馏的总损失为

D. 总体目标

层次增强和蒸馏框架的总目标函数结合了层次增强模块和层次蒸馏模块:
其中 是权衡参数, 表示关于当前任务数据 的监督损失, 表示层次增强模块的损失, 分别表示层次蒸馏模块中的层次逻辑蒸馏和层次相关蒸馏的损失。

IV. 层次增强的理论分析

层次增强模块(HAM)同时考虑了低级模态增强和高级视频增强,以保留数据知识。为了减轻增强引起的错误信息,我们假设不同级别的增强策略更新不同的模块,即低级模态增强和高级视频特征增强分别更新音频-视觉融合模块F和分类器模块C的参数。然后我们提供了对HAM的有效性进行理论分析,以证明其在保留知识方面的有效性。

A. 增强的效果

在这一部分,我们证明了使用低级模态增强和高级视频增强对学习音频-视觉融合模块F和分类器模块C是有益的。
给定网络权重w,数据集T,网络权重的先验分布p(w),似然函数p(T |w)和归一化常数p(T ),我们有p(w|T ) = p(T |w)p(w) / p(T ) = p(T |w)p(w) / ∫p(T |w)p(w)dw。假设w∗是给定数据集T的最优参数,我们有log p(w∗|T ) = log p(T |w∗) + log p(w∗) − log p(T )。对于p(T ),我们有p(T ) = ∫p(T |w)p(w)dw < ∫p(T |w∗)p(w)dw = p(T |w∗)。假设增强的数据集T′接近T的数据分布,我们则有p(T′) < p(T′|w∗)。在整合给定数据集T和增强的数据集T′后,我们得到ˆT = T ∪ T′,我们有log p(w∗|ˆT ) = log p(ˆT |w∗) + log p(w∗) − log p(ˆT ) = log p(T , T′|w∗) + log p(w∗) − log p(T , T′) = log p(T |w∗) + log p(T′|w∗) + log p(w∗) − log p(T ) − log p(T′) > log p(T |w∗) + log p(w∗) − log p(T ) = log p(w∗|T )。由于p(w∗|ˆT ) > p(w∗|T ),我们可以在利用增强的数据集T进行训练时获得更合理的最大后验估计(MAP)来优化参数w∗,这证明了增强对网络优化的有效性。

B. 层次增强的效果

在这一部分,我们证明了使低级模态特征增强和高级视频特征增强分别更新F和C比使用低级模态增强来更新F和C更有效。
定义:给定两个度量空间(X, dX)和(Y, dY),其中dX表示集合X上的度量,dY是集合Y上的度量,如果存在一个实数常数K ≥ 0,使得对于所有x1和x2在X中,dY (f(x1), f(x2)) ≤ KdX(x1, x2),则函数f : X → Y被称为Lipschitz连续的。当K = 1时,(28)被称为1-Lipschitz连续。然而,Lipschitz连续对于深度神经网络来说是一个过于严格的约束,即如果函数fw∗表示深度神经网络,dY (f∗w(x1), f∗w(x2)) < KdX(x1,x2)并不总是成立,例如,LCSA[69]证明了标准点积自注意力对于无界输入域不是Lipschitz连续的。因此,我们假设音频-视觉融合模块F不满足1-Lipschitz连续性。
由于音频-视觉嵌入模块E在音频-视觉模型Φ中是冻结的,我们只关注音频-视觉融合模块F和分类器模块C。我们用T表示低级模态特征,F(T)表示高级视频特征。我们将神经网络fw∗分成两部分:音频-视觉融合模块F和分类器模块C,它们的参数分别是w∗F和w∗C。有了增强的数据集T′,我们有:
由于T′是数据集T的增强,它与T有类似的分布。因为音频-视觉融合模块F不是1-Lipschitz连续的,T′的高级视频特征F(T′)容易偏离F(T)的分布,可以表述如下:
方程(31)成立是因为对于归一化常数我们有
。因此,F(T)′比F(T′)获得了一个更合理的最大后验估计(MAP)来优化分类器参数w∗C。结合(29)和(33),我们得出结论:
因此,同时增强T和F(T)比仅仅增强T更有效。而且,音频-视觉融合模块w∗F和分类器模块w∗C的参数应该分别由增强样本T′和增强特征F(T)′来更新。

V. 实验

A. 训练细节

数据集:我们使用AVE、AVK-100、AVK-200和AVK-400数据集进行类别增量音频-视觉视频识别。AVE数据集[54]源自AudioSet[70],包括28个类别的4,143个视频,其中3,339个用于训练,402个用于验证,402个用于评估。另一方面,AVK-100、AVK-200和AVK-400是专门针对类别增量音频-视觉视频识别任务从Kinetics-400[71]中创建的数据集,没有任何额外的视频。由于Kinetics-400中的一些视频存在无效的YouTube下载链接和提取音频-视觉特征的问题,我们基于Kinetics-400构建了AVK-100、AVK-200和AVK-400数据集,并自行将其分为训练、验证和评估集。AVK-100包含100个类别的59,770个视频,其中35,826个用于训练,11,955个用于验证,11,989个用于评估。AVK-200包含200个类别的114,000个视频,其中68,320个用于训练,22,798个用于验证,22,882个用于评估。AVK-400包括400个类别的234,427个视频,其中140,497个用于训练,46,885个用于验证,47,045个用于评估。
基准协议:我们遵循类别增量学习中使用的标准协议[13]、[35],即先进行初始基础任务,然后进行N个增量任务,每个任务包含相同数量的类别。对于AVE,我们选择10个类别作为初始基础任务,并将剩余的18个类别分成6/3增量任务(6/3阶段),每个增量任务包含3/6个类别。类似地,对于AVK-100,我们选择50个类别作为初始基础任务,并将剩余的50个类别分成5/10增量任务(5/10阶段),每个增量任务包含10/5个类别。对于AVK-200,我们选择100个类别作为初始基础任务,并将剩余的100个类别分成10/20增量任务(10/20阶段),每个增量任务包含10/5个类别。对于AVK-400,我们选择200个类别作为初始基础任务,并将剩余的200个类别分成20/40增量任务(20/40阶段),每个增量任务包含10/5个类别。我们为AVE、AVK-100、AVK-200和AVK-400设置记忆库的大小分别为140、1000、2000和4000。主要数据集统计和基准协议在表I中提供。

评估指标:我们采用平均增量准确率(AIA)[10]、[73]作为评估指标,它表示在所有增量阶段(包括初始阶段)中对已遇到数据的准确率的平均值,作为衡量方法在训练任务序列{T1, T2, ..., TS}时的整体增量有效性的指标。
其中增量准确率IAi表示模型在完成训练任务Ti后对已遇到数据的准确率。同时,我们还报告最终增量准确率(FIA)结果,它表示在最终增量阶段对所有数据的准确率。
实现细节:对于每个视频,我们以8fps的速率采样帧,并将视频分成10个不重叠的片段。我们使用冻结的预训练音频-视觉嵌入模块来提取音频-视觉特征。具体来说,我们使用VGGish模型[70]进行音频特征提取,以及ResNet-152[7]和3D ResNet[74]模型分别进行2D和3D视觉特征提取。使用预训练的VGGish模型在片段级别提取音频特征,而通过结合ResNet-152和3D ResNet的输出来创建每个视频片段的融合视觉片段级特征。ResNet-152模型在ImageNet数据集[75]上预训练,3D ResNet模型在Kinetics-400数据集[71]上预训练。同样,VGGish模型在Audio-Set数据集[76]上预训练。鉴于AVE数据集是Audio-Set数据集的子集,AVK100、AVK200和AVK400数据集是Kinetics-400数据集的子集,预训练的音频-视觉嵌入模块为后续的融合和分类模块提供了有效的特征表示。在模态融合网络中,我们使用混合注意力网络[1]来获得融合特征。对于分类器,我们对AVE使用余弦归一化的最后一层,类似于CCIL[13],即计算归一化特征和归一化类别权重向量之间的余弦相似性。对于AVK-100、AVK-200和AVK-400,我们使用最后的线性层进行分类。与CCIL[13]类似,示例集也包括来自当前类别的等量示例样本。模型使用Adam[77]优化器进行训练,学习率为3e-5,训练周期为10。我们设置λ = 0.05,β = 5,γ = 0.2和η = 25。AVE的批量大小为16,AVK-100/200的批量大小为256。所提出方法的代码可在https://github.com/Play-in-bush/HAD上找到。

B. 与现有方法的比较

在本节中,我们将所提出的方法与经典的基于示例的方法进行比较,如iCaRL[10]、Lucir[35]、il2m[11]、DER[72]、CCIL[13]和CSCCT[42]。为确保公平比较,所有这些方法都在相同的数据集划分上进行评估,并利用视频中的音频和视觉特征。每种方法都使用相同的预训练音频-视觉嵌入模块生成的音频和视觉特征进行重新实现。此外,采用随机采样策略来构建每种方法的示例集。比较结果在表II和图4中显示。术语“基线”表示使用我们方法中使用的分类器对每个传入数据集进行微调的策略。具体来说,“基线”只关注当前任务的音频-视觉视频识别,通过执行当前任务数据的分类损失,过去的任务数据不可用用于增强或蒸馏。随着任务数量的增加,所有方法的性能总体上都在下降,这表明了类别增量音频视觉视频识别任务的必要性。与“基线”相比,HAD在平均增量准确率/最终增量准确率指标上分别提高了14.1%/27.9%(15.5%/28.1%)、31.5%/49.1%(37.9%/57.3%)、43.1%/60.7%(49.0%/57.3%)和48.5%/58.8%(50.0%/59.2%)在AVE 3阶段(6阶段)、AVK-100 5阶段(10阶段)、AVK-200 10阶段(20阶段)和AVK-400 20阶段(40阶段)。

此外,HAD在所有数据集上都优于现有方法,例如,在AVE 3阶段(6阶段)、AVK-100 5阶段(10阶段)、AVK-200 10阶段(20阶段)和AVK-400 20阶段(40阶段)中分别获得了88.9%/85.1%(87.0%/83.1%)、90.1%/86.6%(89.8%/86.3%)、84.6%/78.0%(84.3%/77.6%)和78.2%/69.5%(77.6%/69.1%)的平均增量准确率/最终增量准确率。此外,如图4所示,HAD在几乎所有增量阶段都超过了其他方法,展示了其优越性和稳定性。从表II中,我们还观察到现有方法‘il2m’在大型数据集中取得了较好的结果,例如,在AVK-100 5阶段(10阶段)、AVK-200 10阶段(20阶段)和AVK-400 20阶段(40阶段)中分别获得了88.4%/84.6%(87.5%/84.3%)、82.9%/75.7%(82.0%/74.9%)和76.4%/67.2%(75.7%/67.7%)的平均增量准确率/最终增量准确率。这一结果归因于该方法存储了旧类别的示例数据和统计数据。与‘il2m’相比,HAD仅存储了用于知识保留的示例数据。尽管存储的示例更少,HAD在所有四个数据集上仍然优于‘il2m’。优越的结果证实了所提出的HAD的有效性。

C. 消融研究

  1. HAD的元素:我们基于AVE 3阶段的平均增量准确率(AIA)指标,分析了HAM、HDM、HLD和HCD在所提出的HAD框架中的作用。表III表明,仅使用HAM比基线提高了12.8%,表明对示例数据应用层次特征增强增强了知识保留。使用HLD和HCD分别比基线提高了5.7%和3.4%,证明了逻辑蒸馏和相关蒸馏对模型知识保留的帮助。HAD、HLD和HCD(87.6%对比80.5%对比78.2%)的比较表明,层次增强模块有效地减轻了类别增量音频视觉视频识别中的灾难性遗忘,层次逻辑蒸馏略优于层次相关蒸馏。通过结合HLD和HCD,HDM平均提高了7.4%,证明了逻辑蒸馏和相关蒸馏的互补性。通过结合HAM和HDM,HAD分别提高了HAM和HDM的平均增量准确率(AIA)1.3%和6.7%。优越的性能表明,数据知识保留和模型知识保留对于类别增量音频视觉视频识别至关重要。
  2. 层次结构的效果:我们分析了特征增强、逻辑蒸馏和相关蒸馏中层次结构的必要性,使用平均增量准确率(AIA)指标,并在表IV、V和VI中总结了结果。
表IV表明,使用低级模态增强(LMA)和高级视频增强(HVA)都比基线有更高的性能。例如,平均增量准确率(AIA)从74.8%提高到86.4%/87.0%对于LMA/HVA,表明低级特征增强和高级特征增强都有效地保持了以前类别的知识。结合LMA和HVA,HAM获得了87.6%的平均增量准确率(AIA),表明低级模态增强和高级视频增强相互加强。因此,考虑低级和高级特征增强是必要的。

表V表明,使用视频级逻辑蒸馏(SLD)和分布级逻辑蒸馏(DLD)分别比基线提高了5.5%和4.9%,表明视频级逻辑蒸馏和分布级逻辑蒸馏都有效地保留了模型知识。结合SLD和DLD实现了最佳的80.5%的平均增量准确率(AIA),验证了层次逻辑蒸馏的必要性。

表VI表明,使用片段级相关蒸馏(SCD)和视频级相关蒸馏(VCD)分别比基线提高了2.1%和3.1%,证明了片段级相关蒸馏和视频级相关蒸馏的有效性。通过结合SCD和VCD,HCD表现更好,支持了层次蒸馏的合理性。

从表IV、V和VI中,我们可以得出结论,考虑模型和数据的层次结构对于保留类别增量音频-视觉视频识别中的类别知识和模型知识是必要的。
  1. 增强噪声分析:为了说明为什么低级和高级特征增强应该影响不同模块的参数,我们分析了不同增强引起的错误信息累积的效果,如图5(a)所示。HAD-N使用低级特征增强更新音频-视觉融合模块F和分类器C的参数。HAD中仅使用低级特征增强更新音频-视觉融合模块F。如图5(a)所示,HAD-N的性能低于HAD,表明低级特征增强引起的错误可以降低分类器C的性能。因此,进行低级特征增强和高级视频增强以调整音频-视觉融合模块F和分类器C的参数是合理的。所提出的方法不仅充分利用了低级和高级特征增强提供的泛化,还避免了特征增强引起的错误累积。
  2. 多模态分析:为了验证使用音频和视频多模态信息对CIAVVR的必要性,我们展示了当仅使用音频信息(HAD-A)或仅使用视觉信息(HAD-V)时,类别增量学习性能的变化,如图5(b)所示。我们观察到,HAD-A和HAD-V在所有任务中的性能结果都低于HAD,表明利用多模态信息的HAD在视频级类别增量学习中比仅使用单一模态信息的性能更好。此外,我们注意到第四项任务(18.9%/9.7%)与第一项任务(7.6%/4.7%)之间的性能差距更大,表明使用多模态信息在视频级类别增量学习中受到的灾难性遗忘影响较小。此外,HAD通过融合音频和视觉信息,比HAD-A和HAD-V在平均增量准确率(AIA)上分别提高了13.7%和10.0%。这表明音频信息补充了视觉信息,融合音频和视觉信息取得了更好的性能。以上结果证明了视频识别任务中集成多模态信息的必要性。
  3. 高斯增强强度λ的敏感性分析:由于高斯增强被纳入模型的低级模态特征和高级视频特征中,高斯噪声参数λ至关重要,它决定了增强泛化和引入有害噪声风险之间的平衡。我们的结果,如图7所示,表明λ从0增加到0.05时,模型的准确率从88.2%略微提高到88.9%。这表明少量的高斯噪声实际上可以改善泛化,而不影响模型的预测。当λ在0.01到0.09之间变化时,性能稳定在88.6%到88.7%之间,表明了最大鲁棒性的最佳噪声水平。此外,当λ具体为0.05时,模型的最佳性能为88.9%。然而,当λ增加到0.15和0.2时,准确率分别下降到88.5%和87.8%,表明噪声的负面影响开始超过其益处。这些结果表明,在一定范围内高斯噪声可以增强模型泛化。在这个范围内,模型表现出良好的容忍度和对噪声的鲁棒性。
  4. 超参数分析:我们使用平均增量准确率(AIA)指标进行超参数分析,并在图6中总结了相关结果。图6(a)表明,层次增强模块损失的权衡参数β=5优于其他设置。减少β会导致模型保留较少的旧类别知识,导致无法充分解决灾难性遗忘问题。此外,增加β会限制模型过于关注旧类别知识,限制其学习新类别知识的能力。图6(b)和(c)表明,适当的权衡参数γ=0.2和η=25对于平衡旧模型知识保留和当前模型知识学习至关重要。记住旧模型知识可以克服旧类别的灾难性遗忘,但也可能限制当前类别的学习。
  5. F的1-Lipschitz连续性分析:在层次增强的理论分析中,我们假设音频-视觉融合模块F不满足1-Lipschitz连续性,并且F(T′)容易偏离F(T)的分布。我们进行了实验来验证这一假设。我们从T中随机采样了十个低级模态特征Ts,并向低级模态特征Ts添加了距离为1e-2的噪声,即Ts = Ts + 1e-2。最后,我们计算了F(T′s)和F(Ts)之间的距离。从图8中,我们可以看到大多数样本的F(T′s)和F(Ts)之间的距离大于0.01,这违反了1-Lipschitz连续性。此外,F(T′s)和F(Ts)之间的平均距离为1.2e-2,表明F(T′)容易偏离F(T)的分布。以上结果验证了我们的假设的合理性。
  6. 跨分布数据集分析:在主要实验中,AVE数据集是Audio-set的子集,这是音频特征提取网络VGGish的预训练数据集。AVK100、AVK200和AVK400是Kinetics-400数据集的子集,用于3D ResNet视觉特征提取网络。因此,我们可以从这些数据集中获得有效的特征表示,为后续的音频-视觉融合和分类模块提供良好的输入。然而,在音频-视觉增量学习任务中,数据集可能并不总是与预训练模型的数据集一致,可能导致次优或损坏的特征。为了评估我们的模型对于跨分布数据集的泛化能力,我们引入了一个新的数据集,称为Extra-AVK。该数据集由来自Kinetics-600的200个类别组成,与Kinetics-400类别不同。我们每个类别提取了200个视频,并将它们分成训练、验证和评估集,比例为6:2:2,每个类别分别有120个训练、40个验证和40个测试视频。与其他数据集不同,Extra-AVK数据集对于音频、2D视觉和3D视觉网络没有预训练信息。我们使用Extra-AVK的100个类别作为初始基础任务,并将剩余的100个类别分成10个或20个增量任务(阶段),每个任务包含10个或5个类别。
从表VII中可以看出,我们的方法HAD在Extra-AVK数据集上优于其他方法,这是音频、2D视觉和3D视觉网络完全新的数据集。例如,HAD在Extra-AVK上10阶段(20阶段)实现了最佳的平均增量准确率/最终增量准确率58.6%/45.5%(57.0%/44.6%),强调了我们方法的有效性和泛化能力。此外,我们观察到Jointtraining和基线在Extra-AVK上的性能与它们在AVK-200上的性能相比有显著下降。具体来说,Extra-AVK上的Jointtraining比AVK-200下降了26.0%。基线方法在Extra-AVK上10阶段(20阶段)的平均增量准确率/最终增量准确率比AVK-200上10阶段(20阶段)分别下降了27.9%/13.4%(25.9%/18.1%)。这一下降表明,预训练的音频-视觉嵌入模块缺乏对Extra-AVK数据集的足够先验知识,导致特征提取不佳,因此音频-视觉分类结果较差。这表明,对于未来的音频-视觉增量学习任务,使用更先进的音频-视觉嵌入模块可以提高性能。

  1. 与大规模全监督方法的比较:为了说明我们模型框架中联合训练(上界)结果的合理性,我们将我们模型的全监督性能与最新的大规模变换器视频模型UniFormerV2[78]进行了比较。UniFormerV2只关注视觉模态,忽略了音频模态。然而,我们通过利用音频和视觉模态进行全监督训练,建立了全监督性能的上界。为确保与UniFormerV2的公平比较,我们统一了我们的实验模态。具体来说,我们在AVK-400数据集上测试了UniFormerV2-L/14 with Frame 16 × 3 × 4,我们还实现了我们的方法在相同数据集上的性能,只考虑视觉模态(HAD-V)和两种模态(HAD)。结果列于表VIII中。从表VIII中可以看出,UniFormerV2利用大规模变换器作为其主干,在AVK-400数据集上显著优于我们的HAD-V方法,提高了17.0%。此外,考虑音频和视觉两种模态的HAD超过了仅关注视觉信息的HAD-V。然而,HAD在AVK-400上的性能仍然比拥有大量模型参数的UniFormerV2低8.3%。这些发现证实了表II中联合训练性能上界的有效性,并展示了集成音频和视觉模态的好处。这也启发我们在未来专注于开发多模态大规模变换器视频模型。
  2. 内存使用分析:许多现有的类别增量学习方法存储历史类别的图像或帧以保留过去知识。然而,我们的方法存储历史类别的特征,从而保存历史知识。我们比较了存储图像/帧和特征的历史类别,以展示存储特征的有效性,如表IX所示。在视频处理和特征存储的内存使用评估中,考虑一个10秒的视频,以每秒8帧的速率采样,每帧尺寸为3×224×224像素,每个通道的色深为8位。一个单帧大约需要150,528字节,或约0.143MB。对于整个视频片段,总内存约为12,042,240字节,或11.49MB。对于特征存储,每个特征为32位浮点数(4字节),要求如下:音频特征(10×128)使用5,120字节,2D视觉特征(80×2048)需要655,360字节,3D视觉特征(10×512)需要20,480字节。因此,每个视频的所有特征的总内存约为680,960字节,或0.65MB。在AVK-400连续学习任务中,有4,000个视频,存储帧需要大约44.87GB,而存储特征仅需要约2.54GB。这表明,与原始帧数据相比,特征存储在内存效率上有明显优势。特征存储占用的空间显著减少,仅为原始帧所需空间的一小部分。这种效率在大规模机器学习项目中特别有价值,其中优化数据存储和处理是关键。

VI. 结论

本研究探讨了一个基础的音频-视觉问题:类别增量音频-视觉视频识别(CIAVVR)。我们提出了一个新颖的层次增强和蒸馏(HAD)框架,用于CIAVVR,考虑了模型和视频数据中的层次结构。四个基准测试的评估证实了所提出的HAD的有效性。在未来,我们将探索如何以非示例的方式使用视频数据的层次结构来存储旧类别的知识。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 计算机书童 小编


计算机书童
为大家分享计算机、机器人领域的顶会顶刊论文
 最新文章