情感对话的自适应多模态辅助融合策略

文摘   2024-11-23 12:28   广东  


【导读】在人体表达同一种情感时,不同模态特征在同一时刻展现出共同的情感表征,尽管它们所包含的情感信息量有所差异。近日,华南理工大学张通教授团队提出了一种名为自适应交互注意力网络(AIA-Net)的方法,该方法有效地整合了文本、语音和脑电信号等多种模态的情感信息,旨在提升人机对话中情感识别的准确性。AIA-Net将文本作为主模态,而将语音或脑电信号作为辅助模态,通过动态学习这些模态间的交互关系,并将其编码为注意力权重,从而提取出有效的情感特征,并减少冗余干扰。


人类情感表达具有隐秘性和瞬发性,这使得在人机对话互动中难以精准捕捉用户的情感状态。为了解决这一问题,多模态学习整合了面部表情、语音语调、文本内容以及脑电信号(EEG)等不同类型的人体数据,从多个角度捕捉和分析情感信息,有效理解用户的真实情感。然而,多模态特征之间的异构性显著增加了多模态特征融合的复杂性与难度。同时,大多数研究工作同等对待具有不同情感贡献度的多模态特征,这容易引入来自低贡献度模态的噪声与冗余信息,进一步干扰多模态融合特征的情感判别性能。华南理工大学张通教授团队在IEEE Transactions on Cybernetics期刊上发表了题为AIA-Net: Adaptive Interactive Attention Network for Text-Audio Emotion Recognition的研究,提出了一种基于自适应交互注意力的多模态辅助融合策略,有效整合具有不同贡献度的多模态情感信息。


在人体表达同一种情感时,同一时刻下的不同模态特征拥有共同的情感表征,但情感信息含量不同。围绕这一情感表达现象,课题组另辟蹊径,摒弃了以往研究中同等对待与处理所有模态特征的策略,创新性地提出了一种多模态辅助融合策略——自适应交互注意力。该策略以模态贡献度最大的文本模态为主模态,语音或脑电等模态为辅模态,以灵活的方式学习它们之间的动态交互关系,并将这种交互关系编码为交互注意力权重。这样,可以从辅模态中抽取有效的情感特征,辅助主模态的情感表征,实现多模态信息的互补,同时尽量减少弱模态的冗余干扰。通过这种方式,脑电信号的实时差异性和不可伪装性为情感识别提供了有力的支持,增强了模型的准确性和鲁棒性。

自适应交互注意力生成特征的示意图

如图1所示,由于人体在表达同一种情感时,同一时刻下的不同模态特征拥有共同的情感表征,因此自适应交互注意力计算相似度矩阵探索所有语音特征与文本特征的相似性,挖掘高度一致的情感信息:

其中,为自适应权重矩阵,其维度由文本特征向量和语音特征向量的特征通道维度所决定。允许模型灵活适配具有不同维度的文本特征和语音特征,无需调整的特征维度结构。其次,是可训练学习的参数,使得相似度矩阵随网络自适应调整。当网络的训练处于最优收敛状态时,可以很好地表征多模态之间的相似性。因此,尽管文本特征和语音特征的维度不同,但自适应交互注意力提供一种灵活的方式适配它们,并更好地学习它们之间的相似性。

接着,将相似度矩阵编码为一种注意力概率分布—交互注意力权重,以衡量所有语音特征向量对每个文本特征向量的重要性,以便从语音特征中抽取对文本特征有效的情感特征,增强文本情感表征。

其次,在非标准的实验室环境或野外环境,录音过程可能会录入一些背景噪声,如打击声、敲击声、口哨声等,这些噪声会影响融合的多模态特征。通过引入自门控机(SG)制来动态消除此类噪声;同时,采用拼接与卷积操作,进一步改善特征多样性和表征能力。

由于不同的模态分支网络在训练过程中拥有不同的学习速率和收敛速率,影响多模态融合性能,因此需要平衡不同模态分支网络的收敛速率,使不同模态分支网络在训练过程中尽量达到一致收敛。其次,情感信息的提取往往不能一步到位,而是循序渐进的过程。因此,本章引入双残差连接结构,设计自适应交互注意力协同学习层,通过叠层实现多次多模态交互演化以及为不同模态分支网络提供学习缓冲,如图2所示。

基于自适应交互注意力的多模态情感识别网络

  本文在IEMOCAPMELDCMU-MOSI三个多模态情感识别数据集上验证了自适应交互注意力网络的性能,并与不同的多模态融合策略开展性能与效率对比分析实验,证明了基于自适应交互注意力的多模态辅助融合策略在性能与效率方面的优越性。同时,基于自适应交互注意力的多模态辅助融合策略具有良好的多模态扩展性能和泛化性,能够以较低的计算成本推广到具有更多模态的情感识别任务,并在IEEE Transactions on Affective Computing 期刊发表的后续研究工作“MIA-Net: Multi-Modal Interactive Attention Network for Multi-Modal Affective Analysis”上得到了充分验证。

该项研究工作由张通教授与博士生李淑贞共同研究,陈变娜博士、袁浩章博士、陈俊龙教授为本论文工作也做出了重要贡献。


原文链接

Tong Zhang, Shuzhen Li, Bianna Chen, Haozhang Yuan, C. L. Philip Chen, AIA-Net: Adaptive Interactive Attention Network for Text-Audio Emotion Recognition, IEEE Transactions on Cybernetics, 53(12), 7659-7671, Dec. 2023.

https://ieeexplore.ieee.org/document/9863920


作者信息



审核排版:潘家辉

【免责声明】本公众号发布的内容仅供学习交流使用,内容版权归原作者所有。如有侵犯您的权益,请及时与我们联系,我们将于第一时间删除内容。内容为作者个人观点,不代表本公众号立场和对其真实性负责。

版权所有,转载请注明出处


脑机接口与混合智能研究团队
欢迎来到华南师范大学人工智能学院hBCI团队!我们专注于脑机接口和计算机视觉,致力于研发新一代人机交互和人机混合智能技术。我们的研究覆盖基础科学到工程实践,旨在打造更智能、直观的未来。关注我们,共同探索智能科技的无限可能!
 最新文章