TPAMI 2024 | 多模态融合超前研究!维度情感识别!

文摘   2025-01-12 11:15   安徽  

点击下方卡片,关注“AI前沿速递”公众号

各种重磅干货,第一时间送达



题目:COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition

COLD融合:校准和序数潜在分布融合用于不确定性感知的多模态情感识别

作者:Mani Kumar Tellamekala; Shahin Amiriparian; Björn W. Schuller; Elisabeth André; Timo Giesbrecht; Michel Valstar


摘要

自动识别面部和声音中明显的情绪是困难的,部分原因是输入数据和机器学习框架中使用的标签存在各种不确定性来源。本文介绍了一种不确定性感知的多模态融合方法,该方法量化了模态特定的概率或数据不确定性,以预测情绪。我们提出了一种新颖的融合框架,在该框架中,通过限制其方差来学习单模态时间上下文的潜在分布。这些方差约束,即校准和序数排序,设计得使得对于模态估计的方差可以表示该模态的时间上下文对于情绪识别的信息量。当校准得当时,模态特定的不确定性分数表明它们对应的预测与真实标签可能的差异程度。良好排序的不确定性分数允许不同模态的不同帧之间的序数排名。为了同时施加这两个约束,我们提出了一个softmax分布匹配损失。我们在 AVEC 2019 CES、CMU-MOSEI 和 IEMOCAP 数据集上的评估表明,所提出的多模态融合方法不仅提高了情绪识别模型的泛化性能和预测不确定性估计,而且还使模型对测试时遇到的新噪声模式更加鲁棒。

关键词

  • 维度情感识别 (Dimensional affect recognition)
  • 多模态融合 (Multimodal fusion)
  • 不确定性建模 (Uncertainty modeling)
  • 类别情感识别 (Categorical emotion recognition)

I. INTRODUCTION

学习从多个模态融合特定任务的信息是机器学习中的一个基本问题。这个问题的核心在于估计每个模态对于预测目标任务标签的信息量。例如,考虑自动从视频中识别情绪表达的任务,其中一个人戴着口罩在说话。在这种情况下,为了有效地融合音频和视觉模态的信息,模型必须分别意识到面部和声音流对于目标任务的信息量。因此,模态特定的不确定性感知融合是多模态学习的一种自然方法。

在这项工作中,我们为从多模态输入中识别明显情绪的任务制定了一种不确定性感知的融合方法。所提出的多模态融合框架基于与情绪表达相关的单模态时间上下文的概率建模。这种概率时间建模方法旨在捕捉给定模态中情绪表达的时间上下文的丰富性,并使用这些信息来决定每个模态对于识别明显情绪的重要性。

在所提出的方法中,我们首先估计单模态时间输入的不确定性,然后将这些不确定性估计应用于计算模态特定的融合权重。特别地,我们的目标是估计与不同模态相关的不确定性的偶然组成部分,以提高情绪识别性能。与可以通过更多数据解释的不确定性的认识部分不同,偶然不确定性捕捉了输入信号固有的噪声或随机性。例如,在从面部图像中识别情绪表达时,认识不确定性可以描述由于“快乐”类别数据不足而导致的不确定性,而偶然不确定性则捕捉了由于面部区域被遮挡、面部图像分辨率低等因素引起的不确定性。在这项工作中,我们专注于估计多模态情绪识别模型中的模态特定偶然不确定性。

作为一种本质上是时间和多模态的现象,从多模态输入中识别情绪是情感计算中的一个长期挑战中呈现的元分析表明,尽管情绪识别通常可以从多模态融合中受益,但当涉及到自发情绪时,性能提升并不显著。我们认为,考虑到不同模态中嵌入的自发情绪的强度可能随时间动态变化,不确定性感知的多模态融合可能具有解决这一挑战的潜力。

尽管深度神经网络(DNN)已广泛用于多模态情绪识别,但估计模态特定的不确定性以提高融合性能是一个相对未被探索的途径。然而,近年来在DNN中对预测不确定性(或其相反的置信度)的建模受到了广泛关注,这是由于观察到DNN往往做出过于自信的预测。大多数现有的关于DNN中不确定性或置信度估计的工作仅关注于减少校准误差,即预期模型估计误差与相应的置信度分数之间的不匹配。最近,作为一种替代视角,Moon等人引入了学习对置信度分数进行排序的思想。

在这项工作中,我们认为估计的不确定性分数必须同时既校准良好又排序良好(序数)。前者需要准确表示单个样本预测的正确性可能性。后者对于有效地根据它们的正确性可能性对一组样本的预测进行排序至关重要。换句话说,如果一个单个样本的不确定性估计校准良好,在没有其真实标签的情况下,不确定性分数可以作为其预期预测误差的代理。如果与不同预测相关的不确定性分数排序良好或保持序数性,那么可以使用它们根据它们对目标预测的可靠性对它们对应的样本进行排序,并区分最有信息量的样本和最没有信息量的样本。

对于多模态时间学习,估计对不同帧在不同单模态序列中所做的预测的信息量是至关重要的,以便可靠地整合目标特定的信息。在这项工作中,我们假设联合学习这两个属性——校准和序数性——可以为每个模态带来更可靠的不确定性估计,从而促进更有效的不确定性加权时间上下文融合。基于这个假设,我们提出了一种不确定性建模方法,它同时施加校准和序数性约束,如图1所示。

例如,考虑通过分析面部图像序列及其语音信号来分类一个人的情绪状态是“快乐”还是“中性”的任务。假设在大多数帧中面部被口罩覆盖,使得面部模态比语音模态信息量少。在单模态设置中,面部和语音分类器分别训练以输出它们对应的“快乐”类别概率。当校准良好时,这些输出概率应该反映面部和语音模型预测的正确性可能性。同样,当受到序数排序的约束时,语音模型的输出概率必须高于面部模型的概率,反映面部和语音模态相对于彼此的相对不确定性水平。

在这项工作中,我们根据预测情绪的信息量来调节单模态潜在分布的方差向量,使其代表不同模态包含的信息。我们提出的方法可以被视为经典后期融合的不确定性感知扩展,但这里的融合是应用于单模态时间上下文嵌入的潜在空间。这种方法与直接在单模态输出预测上建模不确定性的简单置信度加权后期融合模型不同。

在我们的提议框架中,称为校准序数潜在分布(COLD),我们首先分别学习音频和视觉模态的时间上下文的潜在分布(多元正态分布),如图2所示。我们将音频和视觉潜在分布的方差值和 建模为情绪预测的置信度度量。我们设计了一种基于softmax分布匹配的新颖训练目标,以鼓励每个模态中的方差范数值:(a) 与单模态预测的正确性可能性强烈相关,以及 (b) 具有序数性质,以有效地对不同模态对于情绪识别的相关性进行排序。因此,学习了校准和序数的单模态方差分数,以实现有效的不确定性加权融合,如图2所示。

我们在 (a) AVEC 2019 CES和 IEMOCAP数据集上的维度情绪识别,以及 (b) CMU-MOSEI和 IEMOCAP 数据集上的类别情绪识别中评估了所提出的COLD融合方法。与不确定性不感知的融合基线相比,COLD融合在本工作中评估的不同多模态情绪识别任务上显示出明显更好的结果。例如,在维度情感回归任务中,COLD融合显示出超过最佳表现融合基线的1.6%的平均相对改善。类似地,在分类情感分类的情况下,COLD融合比现有的最先进的模型实现了8.2%的相对准确度提高。此外,我们评估的鲁棒性ofdifferent融合模型在测试时,通过引入噪声到视觉模态通过人脸掩蔽。在50%的评估序列中,COLD融合的人脸相对于最佳融合基线的平均相对改善达到17%。

我们的工作的主要贡献如下:

  • 我们提出了一个不确定性感知的多模态融合方法,动态估计的融合权重分配给单峰特征。
  • 我们演示了如何共同学习校准良好和排名良好的单峰不确定性估计。为此,我们提出了一个简单的softmax分布匹配损失函数,适用于回归和分类模型。
  • 在维度和分类情感识别任务上,所提出的融合方法显示出明显的性能增益和对测试时遇到的新噪声模式的鲁棒性。

III. MODEL-AGNOSTIC FUSION BASELINES

在介绍我们对不确定性感知的多模态融合的公式之前,我们首先简要讨论了与音视频情绪识别相关的一般多模态融合技术,并引入了相关符号。多模态学习中的一个基本问题涉及执行融合的最佳阶段。我们考虑以下三种典型的模型无关融合方法作为基线:特征融合、时间上下文融合和预测融合。

Preliminaries and Notations:如图2所示,给定一个面部视频剪辑 包含 帧及其相应的语音信号 ,使用重叠时间窗口,我们首先创建与 视觉帧相对应的 个语音段。这里,我们假设信号 都使用共同的维度情绪标签  (每帧或每序列)进行了注释。我们使用双流网络从面部视频和语音输入中提取每帧的低维特征序列 。这个网络由2D CNN 和 1D CNN 组成,分别处理面部图像和语音段, 和 。对于单模态情绪识别,我们分别处理每个模态的时间上下文 使用不同的时间网络 来预测情绪标签

Feature Fusion or Early Fusion:特征融合或早期融合整合了帧级别的情绪线索,存在于音视频特征 中(例如,[69]),不考虑不同模态之间常见的时间不对齐问题[70]。这里,我们将每帧的音视频特征串联成一个序列 ,然后将其传递给一个共同的时间网络 来预测情绪标签。

Decision Fusion:决策融合结合了单模态情绪预测 (例如,[71])。这里,我们应用基于预测置信度的加权平均值来进行后期融合。与早期融合不同,后期融合不利用音视频流中的情绪线索的低级对应关系[68]。

Temporal Context Fusion or Context Fusion:时间上下文融合或简称上下文融合整合了以音视频时间上下文向量 形式聚合的序列级情绪信息,这些向量由时间网络 分别产生。这种方法也被称为“带RNN的特征融合”或某些先前工作中的“中级”融合[8]、[72]。注意,这里的时间上下文或简称上下文是指第 帧相对于输入序列中其余帧所携带的情绪信息。因此,与早期融合不同,上下文融合不太可能受到音视频特征序列的情绪相关语义的时间不对齐的影响。此外,上下文融合与后期融合相比,受益于情绪空间中的低级音视频对应关系。

考虑到上述时间上下文融合的关键优势,本工作中我们提出学习一个不确定性感知的上下文融合模型,用于多模态情绪识别,如下所述。

IV. PROPOSED METHOD

图3展示了我们提出的不确定性感知多模态融合解决方案。尽管本节仅描述了音视频设置中的融合,但请注意,它也可以很容易地扩展到超过两种模态的任务。在本节中,我们首先讨论如何通过学习单模态潜在分布来估计模态特定的不确定性,然后我们介绍了如何基于单模态上下文方差导出融合权重的方法。接着,我们介绍了对单模态潜在分布方差向量施加的两个关键优化约束,并描述了它们的实现方式。

A. Uncertainty-Aware Audiovisual Context Fusion

量化预测共同目标标签时每种模态的不确定性对于提高多模态融合性能至关重要。我们的目标是首先量化时间上下文空间内的模态内不确定性,然后使用估计的不确定性分数来导出融合权重。为此,我们提出分别学习音视频模态的时间上下文的单模态潜在分布,如下所述。

1) Latent Distributions Over Unimodal Temporal Context:

如图2所示,我们修改了时间网络(GRU-RNNs),使其输出音频和视觉时间上下文向量的多元正态分布的参数(均值和方差)。这里,“时间上下文”指的是对应单模态GRU块()的隐藏状态输出。对于每种模态,我们学习这个隐藏状态输出作为一个多元正态分布,而不是典型的确定性嵌入向量。我们假设这些单模态潜在分布能够比确定性嵌入更有效地表示模态特定的情绪信息。

给定一个帧序列 ,为了预测它们对应的目标变量 ,学习输入序列中帧的出现顺序和帧本身的底层时间上下文信息是重要的。通过将时间上下文建模为概率分布,我们提议使用预测误差 来约束每个帧 的贡献,就其解释的方差而言,整体时间上下文。这里,特定帧 的时间上下文的解释方差是指给定输入序列中所有其他帧的信息,该帧对于准确预测目标变量 所包含的信息量。因此,特定帧 的解释方差越高,它对于准确预测目标变量就越有信息量。

我们的目标是首先估计每个模态对于识别情绪的信息量。为此,我们学习时间上下文的方差,使其可以表示特定模态的时间上下文包含的信息量。例如,考虑一个音视频序列,其中所有音频帧的情绪相同(例如,中性语调),而视觉帧在情绪表达方面有更多的变化。在这种情况下,融合模型在预测情绪时必须给予视觉帧比音频帧更多的重视。基于这种直觉,我们的形式旨在分别捕捉每种模态的时间上下文中与情绪相关的方差。

需要注意的是,从所有帧学习到的绝对方差与单个帧的解释时间上下文方差之间存在差异。虽然前者可以被视为不确定性测量的代理指标,但后者可以被视为给定输入序列中给定帧的每帧信息度量。为了简单起见,本工作中我们使用“上下文方差”一词来指代给定输入序列中给定帧的时间上下文的解释方差。上述论点也可以扩展到多模态融合设置中,在该设置中,特定模态的时间上下文的解释方差可以作为该模态相对于预测共同目标变量的信息量的代理。

我们将单模态上下文方差建模为模态特定情绪预测的代理,并使用方差值的倒数来量化特定模态预测情绪标签的不确定性。请注意,信号方差基础不确定性建模的潜力已经在[73]中得到证明。同样,在[40]中确定学习潜在分布方差能够进行不确定性建模。受到这些想法的启发,我们将单模态上下文方差建模为模态特定预测情绪标签的不确定性代理,并使用以下方法导出基于方差的融合权重,用于整合音视频信息。

2) Context Distribution Variance-Based Fusion Weights:

对于索引为 的输入帧,给定其视觉和音频时间上下文的单模态潜在分布 ,我们首先计算它们的方差值的 范数 。如上所述,这些方差范数值被假定为表示模态特定预测目标情绪的信息量。通过归一化音视频模态的方差范数值,我们导出用于简单线性融合模型的融合权重,该模型融合音视频时间上下文

其中 分别表示视觉和音频时间上下文向量, 表示它们对应的权重值。时间上下文向量 在训练期间从它们各自的潜在分布中采样,。在测试期间,我们将 设置为它们对应的均值向量 以进行评估。

基于单模态上下文方差范数值 ,权重值 通过以下方式计算:

上下文方差建模似乎是一种简单而有效的音视频融合方法,但在实践中学习具有良好条件方差范围的音视频潜在分布并非易事,正如我们在实验中稍后所示。为了使方差值能够有效地捕捉模态内预测目标标签的不确定性,我们定义了一种更原则性的模型训练,它通过应用两个关键的优化约束来施加条件。

B. COLD: Calibrated and Ordinal Latent Distributions

为了有效地学习用于不确定性感知融合的单模态潜在分布,我们提出了对模型训练目标施加两个关键约束:校准(Calibration)和序数(Ordinality或排名)对潜在分布的方差向量进行条件限制。当校准得当时,不确定性分数可以作为其预测对于特定模态输入样本正确性可能性的代理。换句话说,良好的校准不确定性指示了预测情感与真实标签预期偏差的程度。给定不同模态为一系列帧做出的预测,当它们的不确定性分数良好排名或保持序数性时,我们可以有效地根据它们预测目标情感的可靠性对输入单模态帧进行排序。图1中,我们说明了这两种约束的定义。重要的是要注意这两种约束之间的根本区别:虽然校准约束是针对每个单模态帧单独应用的,但序数性或排名约束是针对不同模态的一组帧共同施加的。

校准约束:

  • 通过正则化单模态上下文方差范数 ,使其值与目标情感类别的正确性可能性值强相关。在回归模型中,可以通过迫使方差范数值与它们相应单模态预测 与真实标签 之间的欧几里得距离相关联来实现此约束,如图1所示。换句话说,上下文方差值被学习作为可靠性度量,指示情感预测预期偏离其真实标签的程度。为了在两种模态的方差值上施加此属性,COLD融合应用以下正则化约束,

其中 表示测量目标情感估计误差的距离函数。交叉熵和均方误差(MSE)分别用作分类和回归模型的距离函数。

序数性约束:应用于对单模态序列的帧进行排序,以便它们的不确定性度量指示不同多模态帧相对于彼此的可靠性。这种排序操作可以通过简单的排序约束实现,该约束联合正则化单模态上下文方差范数值 。这里,模态特定的可靠性再次以不同单模态预测和真实标签之间的距离值(见(3))来计算:

  1. 实施:为了在音视频情感识别中通过施加校准和序数性约束来训练上下文融合模型,我们优化网络以最小化由以下组件组成的损失函数:

情感预测损失()对于训练分类模型使用标准交叉熵函数。对于回归模型的训练,类似于[74],我们使用逆一致性相关系数(CCC)损失()以及MSE。此损失是针对单模态()和多模态()分支的预测共同计算的(见图2)。

校准和序数性损失()结合了上述约束,定义在(3)和(4)中,使用可微操作将其合并为单一训练目标。图3显示了实现此组件的步骤:给定一个包含N帧的输入序列,我们首先计算它们的单模态潜在分布,然后计算相应的单模态预测。为了施加校准和序数性约束,我们首先为每种模态计算两组向量:

  • 距离向量:我们收集单模态预测()和真实标签()之间的标量距离值(),使用交叉熵(分类)或MSE(回归)作为距离函数。这一步产生了N维距离向量,

  • 方差-范数向量:我们收集反转的单模态上下文方差范数值到另一组N维向量中,,如下所示:

Softmax 分布匹配用于校准和序数排名:注意,距离向量和方差-范数向量包含标量值,这些值总结了不同嵌入空间、情感标签和时间上下文的属性。因此,我们假设通过直接在它们的原始空间中施加校准和序数性约束来匹配它们的属性并不理想。因此,如图3所示,我们首先分别对距离向量和方差-范数向量应用softmax操作以生成softmax分布。然后,我们通过最小化方差-范数向量和距离向量的softmax分布之间的不匹配来施加校准和序数性约束。这种方法对校准和序数性损失的计算基于软排名,灵感来自[75],其中softmax交叉熵用于序数回归。

如图3所示,在模态内和跨模态设置中,我们计算距离向量()和方差-范数向量()的softmax分布。注意,在跨模态案例中,我们首先分别连接音频和视觉距离向量和方差-范数向量,即 。然后,我们对连接后的列表应用softmax操作,它是2N维的。因此,跨模态softmax分布捕捉了两种模态之间的相对度量。现在,为了施加校准约束,我们最小化距离分布和方差-范数分布之间的KL散度(正向和反向),如下所示:

其中 表示 ,在模态内损失计算中。在跨模态案例中, 分别表示

方差正则化损失():先前的工作[40],[76] 在高维输入空间(如图像)中学习潜在分布时报告了方差崩溃是一个常见问题。方差崩溃主要发生在网络被鼓励预测小方差 值以抑制在使用随机梯度下降训练潜在分布模型时出现的不稳定梯度。为了防止这个问题,我们在训练目标中包含了在[76]中提出的正则化项:

其中 分别表示均值向量和单位方差矩阵。注意,这个正则化项分别应用于音频和视觉分布。

总之,COLD融合训练目标由上述讨论的损失组件组成,如下所示:

其中 (仅限视觉)、(仅限音频)、(音频和视觉组合)和 (正则化)是控制每个正则化约束强度的优化超参数。

V. 实验

我们首先讨论用于评估所提出的COLD融合模型的维度情感和分类情感数据集的详细信息。关于每个数据集的详细信息,可在[4]、[20]、[21]中找到。然后,我们讨论维度情感和分类情感识别的回归和分类公式以及用于评估维度情感和分类情感任务的评价指标,以及适用于分类模型的标准不确定性校准误差度量。最后,我们介绍网络架构、融合模型实现及其优化的详细信息。

A. 数据集

  1. 维度情感识别:对于自发的维度情感识别,我们使用了AVEC 2019 CES挑战语料库[4],该语料库旨在用于SEWA项目的跨文化环境中的情感识别。这个语料库由来自德国、匈牙利和中国参与者的8.5小时音视频记录组成。所有视频都用连续值的情感标签在[-1, 1]范围内进行注释。注意,训练和验证分区仅由德国和匈牙利文化组成。由于测试集(还包括中国文化)的标签不公开,我们在验证集上报告结果。

对于表演情感识别,我们使用了交互式情感二维运动捕捉(IEMOCAP)数据集[20]。这个数据集包括12小时的音视频数据,注释为情感的效价和唤醒度。这里,我们将原始情感标签标准化到[-1, 1]范围内。在可用的五个会话中,我们使用了前四个会话的数据进行训练。注意,COLD融合模型训练涉及多个正则化约束的调整((8))。因此,通常的5折交叉验证评估被认为计算成本过高,因为它需要为每个折叠调整的值。出于这个原因,我们使用了第五个会话的说话者独立分区作为验证和测试集,与现有工作中使用的第一个折叠的验证和测试集相同(例如[78]、[79],它们应用5折交叉验证)。

在这两个情感数据集上,我们在回归和分类设置中训练和评估了我们的音视频融合模型。对于回归模型的训练,我们直接使用范围在[-1, 1]内的连续值标签作为目标。对于分类,我们首先将连续情感值映射到三个不同的类别:效价(正面、中性、负面)和唤醒度(高、中性、低)。为此分箱,我们选择了-0.05和0.05的阈值来绘制这三个上述箱的边界。我们调整了分箱阈值并选择了上述值,以最小化结果类别标签分布中的不平衡。

处理不平衡情感类标签分布:尽管我们仔细调整了分箱阈值,维度情感数据集的类标签分布仍然存在显著的不平衡,如图4所示。为了减轻这个问题的影响,我们在训练分类模型时应用了两种通用技术:a. 对不同类别的训练实例进行非均匀采样;b. 类别加权交叉熵损失。在前者中,我们修改了采样标准,以根据训练集中每个类别可用的示例数量对少数类别进行过采样,对多数类别进行欠采样。在后者技术中,我们根据训练集中每个类别的相对箱大小(bin size),将不同类别的交叉熵损失值进行了划分。

2) 分类情感识别:对于自发的分类情感识别,我们使用了CMU-MOSEI数据集[21],这是一个用于野外多模态情感识别的大规模数据集。这个数据集由来自YouTube独白的1000名不同说话者的视频话语组成。每个话语包含三种模态:以30Hz采样的图像序列、以44.1kHz采样率的音频波形以及相应的文本副本。所有话语都手动注释为6种分类情感:愤怒、厌恶、恐惧、快乐、悲伤和惊讶。这里,我们使用了CMU多模态软件开发工具包中提供的相同的训练、验证和测试分区。

对于表演分类情感识别,我们使用了带有六种基本情感标签的IEMOCAP数据集:中性、愤怒、快乐、悲伤、兴奋和挫败。按照现有工作[80]、[81],我们使用了包含7380个话语的预处理版本,其中每个话语包含以30Hz采样的图像序列、以16kHz采样的音频波形以及其文本副本。我们遵循了先前工作(例如[80])中使用的相同的训练(70%)、验证(10%)和测试(20%)分割。

B. 评价指标

回归模型的性能使用Lin's一致性相关系数(CCC)[82]来衡量,该系数是在预测情感和它们的真实标签之间计算的。

其中 表示之间的皮尔逊相关系数, 分别表示它们的均值和标准差值。

分类模型的维度情感评估使用精确度、召回率和F1分数。鉴于维度情感数据集的类别标签分布不平衡(见图4),对于这三个指标,我们报告了三个情感类别的未加权或宏观平均值,以便平均值不会偏向于最占优势的类别。对于评估分类情感模型,按照先前的工作[80]、[81]、[83]、[84],我们使用了(a)IEMOCAP的准确度和F1分数度量,以及(b)CMU-MOSEI的加权准确度和F1分数。

分类模型的不确定性校准误差通过计算真实类别可能性和预测类别置信估计之间的偏差来衡量。可靠性图[13]用作经验近似,以直观表示置信度校准误差。对于绘制这些图,首先将准确性和置信度轴划分为等大小的区间,然后对于每个区间绘制平均准确性值与其相应的平均置信度分数。对于完全校准的模型,可靠性图应该是一个恒等函数,即准确性和置信度应具有相同的值。预期校准误差(ECE),可靠性图的标量摘要统计量,计算了可靠性图中所有区间的校准误差的加权平均值。

其中 表示第个区间, 是区间总数, 是样本总数。

C. 网络架构

  1. 维度情感模型的特征提取:视觉CNN主干:EmoFAN[85],最近提出的2D CNN,通过建立在基于小时玻璃网络架构上,被证明是非常高效的。这个CNN主干在2D面部对齐任务上预训练,已被发现对迁移学习任务[86]、[87]非常有效。我们使用了其在AffectNet数据集[88]上基于图像的情感识别预训练模型。使用这个主干,我们每帧提取了一个512D特征向量。

音频CNN主干:我们采用了[89]中提出的2D CNN主干,用于以端到端方式提取语音信号特征。这里,我们应用了VGGish[90]预训练模块到2D Mel-spectrogram,它们通过将跳跃大小和窗口长度设置为0.1秒和1秒来获得。类似于[89],我们仅微调了这个VGGish模块的最后两个全连接层。为了区分对话者的信息和目标说话者的信息,我们实现了[91]中提出的特征维度加倍技术。

数据增强:我们对音视频输入应用了强大的数据增强技术,以最小化过拟合问题。值得注意的是,在严重过拟合的情况下,COLD损失函数((6))可能会崩溃,因为校准和序数性约束依赖于训练实例的预测误差。

对于面部图像数据,我们应用了水平翻转(概率设置为0.5)、随机缩放(缩放因子为0.25)、随机平移(±30像素)和随机旋转(30°)。在音频案例中,我们应用了SpecAugment[92],它直接增强2D语谱图本身,而不是其原始的1D波形。这里,我们应用了标准的SpecAugment操作:时间扭曲、频率掩蔽和时间掩蔽,它们的顺序任意定义。时间扭曲()、频率掩蔽()和时间掩蔽()的参数3从不同的均匀分布在[0, 50]、[0, 27]和[0, 40]范围内选择。

  1. 分类情感模型的特征提取:遵循现有工作[80]、[81],我们对对齐的多模态数据进行了早期阶段的特征提取。使用Facet[4]提取了包含35个面部动作单元的视觉特征。使用COVAREP[93]提取的音频特征包含声门源参数、Mel频率倒谱系数等。类似于先前的工作[80]、[81],我们为CMU-MOSEI和IEMOCAP数据集分别使用了74维和144维音频特征。文本特征向量具有300维,通过在词级上对文本数据进行标记,然后提取它们的GLoVE[94]嵌入来准备。

  2. 时序网络:在维度情感识别模型中,时序网络堆叠在单模态CNN主干之上,以模拟时序动态并整合多模态情感信息。值得注意的是,所有在这项工作中评估的融合模型都遵循不同的时序网络实现。然而,所有时序网络都有一个共同的GRU块:一个2层双向GRU模块,后面是一个全连接(FC)输出层。这个GRU块包含256个隐藏单元,dropout值设置为0.5。不同融合模型的GRU块数量和它们的输入输出维度各不相同,如下所述。

在特征融合中,使用单个GRU+FC块处理通过帧级连接的单模态嵌入准备的输入特征序列,而在预测融合中,分别应用不同的单模态时序模型(GRU+FC),并将它们的输出softmax标签分布聚合到最终预测中。上下文融合实现具有两个不同的GRU块,但有一个共同的FC层。如图2所示,COLD融合与上下文融合类似,但GRU块的输出层被修改为预测均值和方差向量。注意,我们在所有多模态模型中同时训练了单模态输出分支和融合分支(见图2)。

在分类情感识别模型中,预提取的视觉、音频和文本特征直接输入到它们相应的时序网络中,这些网络由与维度情感模型中使用的相同的GRU+FC块组成。除了输入单元的数量取决于输入特征的维度外,所有网络参数在这两种情况下都是相同的。在COLD融合模块中,由于分类情感模型中存在第三种模态(即文本特征),公式(2)被修改为适应三种模态,并且校准和序数性约束(3)和(4)被修改为计算六种可能的音频、视觉和文本模态组合的成对相关性。

D. 优化细节

训练所有这些模型的批量大小、学习率和权重衰减值分别为4、5e-3和1e-4。为了调整学习率,我们使用了余弦退火与热重启[95](第一次重启的周期数设置为1,乘法因子设置为2)。我们使用Adam优化器[96]来训练所有在这项工作中评估的模型。

对于维度情感识别,我们使用了在AVEC 2019和IEMOCAP数据集上的30秒输入序列,分别用于每帧和每序列目标。视觉和音频主干以及所有融合模型通过联合最小化CCC损失[74]和回归任务的均方误差以及分类任务的类别加权交叉熵损失来训练。为了找到超参数的最佳值,我们使用了IEMOCAP验证集,并将相同的最佳值应用于在AVEC 2019语料库上训练的模型。超参数值在损失函数(8)中的范围[1e-5, 1e+5]上使用RayTune[97]在对数尺度上进行调整。基于IEMOCAP验证集的性能,以下值被认为是最佳的:为1e-3,为1e-4。我们将相同的超参数值应用于在AVEC 2019语料库上训练的模型。

对于分类情感识别,我们使用了100帧的序列。时序网络使用标准交叉熵损失进行训练。超参数分别在CMU-MOSEI和IEMOCAP的验证集上进行调整。以下值被认为是最佳的:CMU-MOSEI上的为1e-2,IEMOCAP上的为5e-3,CMU-MOSEI和IEMOCAP上的分别为1e-4和5e-5。

VI. 结果与讨论

我们首先展示了基于不同音视频融合技术的维度情感和分类情感识别模型的结果。通过在视觉输入中引入面部遮盖产生的噪声,我们研究了在标准融合基线与提出的COLD融合相比的鲁棒性。然后,我们分析了COLD融合模型在分类设置中的不确定性校准性能。最后,我们对模态特定的融合权重进行了定性分析,以展示COLD融合模型的校准和序数排名属性。

A. 维度情感识别结果

表I和表II分别展示了AVEC 2019 CES(自发情感识别)和IEMOCAP(表演情感识别)语料库上不同单模态(Aud-branch和Vis-branch)和多模态(AV)预测的回归性能。在这两种情况下,COLD融合一致优于标准融合基线(特征、预测和上下文)以及单模态结果。与表现最好的CNN+RNN融合基线相比,COLD融合实现了约6%的平均相对改进。

与AVEC 2019挑战的获胜者Zhao等人[98]相比,COLD融合在唤醒度和平均CCC分数方面表现良好。然而,在效价CCC方面略逊一筹。值得注意的是,Zhao等人[98]使用了领域适应技术来应对音视频情感表达中的跨文化差异。然而,我们的焦点不在于应对跨文化差异,而主要在于提高融合性能。值得注意的是,我们的融合技术原则上与[98]中使用的领域适应是互补的。近年来,一些更先进的时序模型如情感过程(APs)[40]、[41]、[44]展示了比RNNs更优越的泛化性能。然而,由于这项工作主要关注于捕获时序不确定性以实现基于简单CNN+RNN公式的模型不可知融合,因此没有包括基于APs的复杂时序模型,以免混淆这里介绍的标准模型不可知融合方法的分析。

在附录A中,我们比较了提出的COLD融合和多模态Transformer基线[99]在AVEC 2019维度情感回归任务上的性能。在这里,COLD融合也明显优于Transformer基线,尤其是在唤醒度预测方面。

附录B展示了COLD融合公式中不同组件的消融研究,通过将不同的超参数归零来修改COLD训练目标((8))。这些结果,如表11所示,显示了校准、序数和方差正则化约束对于COLD融合实现的性能改进的重要性。附录C提供了统计显著性测试的结果,进一步验证了COLD融合在标准融合基线之上实现的改进。

在AVEC 2019 CES和IEMOCAP语料库上的分类性能分别在表III和表IV中展示。与回归结果类似,COLD融合在这两个数据集上的多模态分类和回归设置中都展示了更优越的情感分类结果。值得注意的是,在这里,我们将原始的回归问题视为一个三元分类问题,通过将连续的情感标签离散化。因此,我们没有现有的基准来比较这个特定的分类设置。尽管如此,COLD融合在效价和唤醒度方面的性能改进在所有三个指标上都是一致的,除了IEMOCAP上的效价召回率。

单模态性能分析:有趣的是,在AVEC 2019案例中,视觉模态(Vis-branch)的性能明显优于音频模态(Aud-branch),而在IEMOCAP数据集上则相反。这种差异可能是由于视频数据的面部图像分辨率质量不同造成的。尽管存在这种数据集特定的差异,我们的COLD融合技术在两个数据集上的多模态分类和回归设置中都显示出一致的性能改进。

融合基线分析:在我们这里评估的融合方法中,上下文融合或简单地说上下文融合在所有融合技术中排名第二,仅次于提出的COLD融合。值得注意的是,在这里,上下文指的是单模态GRU块的输出,单模态预测是通过将浅全连接网络应用于单模态上下文向量来生成的。因此,理论上,上下文向量的性能应该要么优于要么至少与预测融合一样好,这与我们实验结果中观察到的趋势一致。

我们注意到特征融合的性能劣于所有其他融合技术,并且预测融合的性能优于特征融合。这一结果与现有多模态情感识别文献中报告的观察结果一致,即预测融合通常比特征融合获得更好的结果。值得注意的是,特征融合的结果比两个数据集中表现最好的单模态模型(AVEC 2019中的视觉(Vis-branch)和IEMOCAP中的音频(Aud-branch))还要差,这可能是由于没有明确纠正时间错位效应[70],这些通常是启发式派生的[4]。这一结果表明,在特征级别或帧级别集成多模态情感信息可能是次优的,因为连续的情感信息通常以不同的帧率在音视频模态中表达[8]、[72]。

在存在噪声的情况下融合权重的动态自适应:在这个实验中,我们的目标是了解不同的融合模型在测试时呈现新的噪声模式时的表现。通过引入噪声到视觉模态通过人脸掩蔽,在这里,我们研究了不同的融合基线的性能相比,COLD融合。对于此评估,我们使用MaskTheFace [100]中提出的方法将面部面具作为外部遮挡覆盖在图像序列上。6我们将MaskTheFace应用于AVEC 2019 CES验证集序列的50%随机选择的连续帧,如图5所示。请注意,此处评估的所有融合模型在训练期间都没有看到面具。如表VII所示,在该噪声引起的评估设置中,与无噪声评估(表I)相比,对于所有三个融合基线(特征、预测和上下文),性能下降显著高于COLD融合。此外,COLD融合和性能最佳的融合基线之间的相对性能差异从无噪声设置中的0.6%增加到噪声诱导情况下的0.17%。

图5比较了COLD融合预测与来自视觉和音频分支的预测,沿着了推断的模态融合权重分数。我们可以清楚地看到,与没有面具的帧相比,有面具的帧的视觉融合权重要低得多,因此,在存在视觉噪声的情况下,最终的预测更多地依赖于音频模态。这一结果表明,COLDfusion能够根据其信息量动态调整特定模态对识别目标情感的重要性。

B. 分类情感识别结果

表VIII(CMU-MOSEI)和表IX(IEMOCAP)展示了分类情感识别任务的比较结果。这个比较考虑了基于LSTM和Transformer的晚期融合模型、现有的多模态基准和两阶段模型中的SOTA模型(AMOA[83])。

如表VIII和表IX所示,COLD融合在两个数据集上都实现了新的SOTA性能。值得注意的是,在这两个数据集上,上下文融合和COLD融合模型之间的性能差异很明显,这证明了在时间潜在分布学习中应用提出的校准和序数性约束的重要性。在CMU-MOSEI上,与现有的SOTA(AMOA)相比,COLD融合在平均加权准确度和F1分数方面分别实现了8.2%和1.8%的相对改进。在IEMOCAP上,COLD融合展示了最好的准确度和第二好的F1分数。在这里,具有最高F1分数的模型是基于多模态变换器(Mult[99]),而这项工作中实现的COLD融合模型使用了GRUs来模拟时序动态。为了进一步的性能改进,可以将提出的COLD融合模型与基于变换器的时序模型集成,以结合两者的优势。

与这里评估的两阶段模型相比,一些最近提出的完全端到端模型,如[80]、[84]、[101]中所述,展示了改进的情感识别性能,但以显著增加模型训练复杂性为代价。虽然COLD融合框架在这项工作中没有在这些模型上进行评估,但它在实现鲁棒多模态融合方面的能力也可以扩展到完全端到端模型,以实现额外的性能提升。

为了展示COLD融合在其他多模态任务中的适用性,我们还在CMU-MOSEI数据集上的话语级多模态(AVL)情感分析任务上评估了它。有关COLD融合模型在情感分类和回归方面的结果,请参见附录E,它与现有基准相比具有竞争力,并且当与MISA[102]结合使用时,它展示了最好的结果。

总体而言,多模态分类情感和情感识别结果展示了学习良好校准和良好排名的不确定性分数对于改进多模态融合性能的重要性。这些实验还表明,COLD融合公式可以轻松扩展到具有多于两种模态的模型。

C. 不确定性校准性能分析

为了衡量不确定性估计的质量,我们为AVEC 2019语料库上的效价和唤醒度属性计算了预期校准误差(ECE)值(见V-B节)。通过在每个模型的预测softmax分布上应用温度缩放之前和之后计算ECE值,我们分析了显式不确定性校准(温度缩放)的影响。我们在1e-2到1000的范围内通过随机搜索进行了100次迭代,以寻找最优的温度值。类似于[14]中采用的技术,我们选择了在验证集上实现最低ECE值的温度值。

重要的是要考虑到COLD融合模型被训练为隐式校准(见(6)),就其上下文方差值而言。因此,即使在应用显式校准之前,即在温度缩放之前,我们期望COLD融合模型的预测不确定性值或类别置信度分数与其他融合基线相比具有较低的ECE值。

表V报告了AVEC 2019语料库上效价和唤醒度的ECE值。对于这两个属性,在应用温度缩放之前,COLD融合与其他模型相比具有最低的校准误差。在应用温度缩放之后,很明显,所有模型的ECE值都下降了,COLD融合仍然实现了最低的误差。只有在效价的情况下,AV上下文融合与COLD融合相比具有略低的ECE值。这种微小的差异可能是由于随机搜索最优温度值造成的,并且注意到这里,不同的模型对于效价和唤醒度分别有不同最优温度值进行了调整。尽管如此,在所有剩余情况下(在温度缩放之前和之后),COLD融合一致显示出比其他融合模型更低的不确定性校准误差。在IEMOCAP语料库上的结果(见表VI)显示了类似的趋势,验证了COLD融合方法在产生良好校准不确定性估计方面的有效性。为了直观说明COLD融合模型的不确定性校准性能,我们在附录D中比较了不同单模态和多模态维度情感分类模型的可靠性图。

分析音视频融合权重:图6展示了COLD融合模型在AVEC 2019语料库的一个验证序列上估计的模态特定的融合权重。注意,这些融合权重是单模态时间上下文分布的函数(见(2))。在这个示例中,我们分析了融合权重的时序模式以及相应的单模态和多模态情感预测和它们的真实标签。这种分析清楚地显示了融合权重的校准性质:当一个模态的预测与另一个模态的预测相比更接近真实标签时,COLD融合中的音视频权重值被发现相应变化。从图6中标记的转换点可以看出,融合权重逐渐反转,当一个模态的预测更接近真实标签时,而另一个模态的预测则更远。这一结果验证了我们的主要假设,即通过使单模态潜在分布校准和有序来改进融合性能。

VII. 结论

我们提出了一种用于多模态数据的维度和分类情感识别的不确定性感知多模态融合方法。为了捕获预测效价和唤醒度的模态特定不确定性,我们通过学习模态特定的潜在分布,以概率模型的方式对单模态时间上下文进行建模。为了有效地进行不确定性加权的多模态融合,我们建议对单模态潜在分布进行条件限制,使得其方差范数被学习为校准良好和排序良好(序数)。为了联合施加这两种约束于潜在分布,我们引入了一种新颖的softmax分布匹配损失函数,它鼓励不确定性分数既校准良好又排序良好。我们为多模态学习提出的新颖损失函数适用于分类和回归设置。

例如,在维度情感回归任务中,COLD融合比表现最好的融合基线平均提高了约6%的相对改进。同样,在分类情感分类的情况下,COLD融合比现有的最先进模型实现了约8.2%的相对准确度改进。此外,我们通过在视觉模态中引入面部遮盖产生的噪声,在测试时评估了不同融合模型的鲁棒性。在50%的评估序列中遮盖面部时,COLD融合比最佳融合基线实现了约17%的平均相对改进。

在自发和表演情感识别任务中(包括维度和分类情感),我们提出的不确定性感知融合模型比不确定性不感知的模型不可知融合基线实现了显著更好的识别性能。在识别维度情感方面,COLD融合比最佳性能的融合基线实现了约6%的相对改进,在分类情感识别的情况下,它比现有最先进模型实现了约8.2%的相对改进。广泛的消融研究(见在线附录B)表明,应用校准和序数性约束对于提高不确定性感知融合模型的情感识别结果至关重要。此外,我们的方法在情感识别模型的预测不确定性校准误差方面展示了显著的改进。值得注意的是,我们提出的校准和序数排名约束可以轻松地应用于一般模型融合方法,通过量化情感标签的模型特定预测不确定性值。未来的工作可以考虑在其他复杂的多模态学习任务上评估COLD融合方法,如在嘈杂条件下的音视频语音识别[103]和幽默检测[25]、[104]等。

总之,这项工作展示了不确定性建模对于自然条件下可靠识别明显情感状态的重要性。我们希望这项工作中展示的结果能够激发对不确定性在多模态情感计算中应用的更多兴趣。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。


欢迎投稿

想要让高质量的内容更快地触达读者,降低他们寻找优质信息的成本吗?关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁,连接不同领域、不同背景的学者,让他们的学术灵感相互碰撞,激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容,无论是最新的论文解读,还是对学术热点的深入分析,或是科研心得和竞赛经验的分享,我们的目标只有一个:让知识自由流动。

📝 投稿指南

  • 确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。

  • 建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。

  • 【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式

  • 您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”


    长按添加AI前沿速递小助理


AI前沿速递
持续分享最新AI前沿论文成果
 最新文章