情感对话的自适应多模态辅助融合策略

文摘 2024-11-23 12:28 广东

【导读】在人体表达同一种情感时，不同模态特征在同一时刻展现出共同的情感表征，尽管它们所包含的情感信息量有所差异。近日，华南理工大学张通教授团队提出了一种名为自适应交互注意力网络（AIA-Net）的方法，该方法有效地整合了文本、语音和脑电信号等多种模态的情感信息，旨在提升人机对话中情感识别的准确性。AIA-Net将文本作为主模态，而将语音或脑电信号作为辅助模态，通过动态学习这些模态间的交互关系，并将其编码为注意力权重，从而提取出有效的情感特征，并减少冗余干扰。

人类情感表达具有隐秘性和瞬发性，这使得在人机对话互动中难以精准捕捉用户的情感状态。为了解决这一问题，多模态学习整合了面部表情、语音语调、文本内容以及脑电信号（EEG）等不同类型的人体数据，从多个角度捕捉和分析情感信息，有效理解用户的真实情感。然而，多模态特征之间的异构性显著增加了多模态特征融合的复杂性与难度。同时，大多数研究工作同等对待具有不同情感贡献度的多模态特征，这容易引入来自低贡献度模态的噪声与冗余信息，进一步干扰多模态融合特征的情感判别性能。华南理工大学张通教授团队在IEEE Transactions on Cybernetics期刊上发表了题为AIA-Net: Adaptive Interactive Attention Network for Text-Audio Emotion Recognition的研究，提出了一种基于自适应交互注意力的多模态辅助融合策略，有效整合具有不同贡献度的多模态情感信息。

在人体表达同一种情感时，同一时刻下的不同模态特征拥有共同的情感表征，但情感信息含量不同。围绕这一情感表达现象，课题组另辟蹊径，摒弃了以往研究中同等对待与处理所有模态特征的策略，创新性地提出了一种多模态辅助融合策略——自适应交互注意力。该策略以模态贡献度最大的文本模态为主模态，语音或脑电等模态为辅模态，以灵活的方式学习它们之间的动态交互关系，并将这种交互关系编码为交互注意力权重。这样，可以从辅模态中抽取有效的情感特征，辅助主模态的情感表征，实现多模态信息的互补，同时尽量减少弱模态的冗余干扰。通过这种方式，脑电信号的实时差异性和不可伪装性为情感识别提供了有力的支持，增强了模型的准确性和鲁棒性。

图1 自适应交互注意力生成特征的示意图

如图1所示，由于人体在表达同一种情感时，同一时刻下的不同模态特征拥有共同的情感表征，因此自适应交互注意力计算相似度矩阵探索所有语音特征与文本特征的相似性，挖掘高度一致的情感信息：

其中，为自适应权重矩阵，其维度由文本特征向量和语音特征向量的特征通道维度所决定。允许模型灵活适配具有不同维度的文本特征和语音特征，无需调整和的特征维度结构。其次，是可训练学习的参数，使得相似度矩阵随网络自适应调整。当网络的训练处于最优收敛状态时，可以很好地表征多模态之间的相似性。因此，尽管文本特征和语音特征的维度不同，但自适应交互注意力提供一种灵活的方式适配它们，并更好地学习它们之间的相似性。

接着，将相似度矩阵编码为一种注意力概率分布—交互注意力权重，以衡量所有语音特征向量对每个文本特征向量的重要性，以便从语音特征中抽取对文本特征有效的情感特征，增强文本情感表征。

其次，在非标准的实验室环境或野外环境，录音过程可能会录入一些背景噪声，如打击声、敲击声、口哨声等，这些噪声会影响融合的多模态特征。通过引入自门控机（SG）制来动态消除此类噪声；同时，采用拼接与卷积操作，进一步改善特征多样性和表征能力。

由于不同的模态分支网络在训练过程中拥有不同的学习速率和收敛速率，影响多模态融合性能，因此需要平衡不同模态分支网络的收敛速率，使不同模态分支网络在训练过程中尽量达到一致收敛。其次，情感信息的提取往往不能一步到位，而是循序渐进的过程。因此，本章引入双残差连接结构，设计自适应交互注意力协同学习层，通过叠层实现多次多模态交互演化以及为不同模态分支网络提供学习缓冲，如图2所示。

图2 基于自适应交互注意力的多模态情感识别网络

本文在IEMOCAP、MELD、CMU-MOSI三个多模态情感识别数据集上验证了自适应交互注意力网络的性能，并与不同的多模态融合策略开展性能与效率对比分析实验，证明了基于自适应交互注意力的多模态辅助融合策略在性能与效率方面的优越性。同时，基于自适应交互注意力的多模态辅助融合策略具有良好的多模态扩展性能和泛化性，能够以较低的计算成本推广到具有更多模态的情感识别任务，并在IEEE Transactions on Affective Computing 期刊发表的后续研究工作“MIA-Net: Multi-Modal Interactive Attention Network for Multi-Modal Affective Analysis”上得到了充分验证。

该项研究工作由张通教授与博士生李淑贞共同研究，陈变娜博士、袁浩章博士、陈俊龙教授为本论文工作也做出了重要贡献。

原文链接

Tong Zhang, Shuzhen Li, Bianna Chen, Haozhang Yuan, C. L. Philip Chen, AIA-Net: Adaptive Interactive Attention Network for Text-Audio Emotion Recognition, IEEE Transactions on Cybernetics, 53(12), 7659-7671, Dec. 2023.

https://ieeexplore.ieee.org/document/9863920

作者信息

审核排版：潘家辉

【免责声明】本公众号发布的内容仅供学习交流使用，内容版权归原作者所有。如有侵犯您的权益，请及时与我们联系，我们将于第一时间删除内容。内容为作者个人观点，不代表本公众号立场和对其真实性负责。

脑机接口与混合智能研究团队

欢迎来到华南师范大学人工智能学院hBCI团队！我们专注于脑机接口和计算机视觉，致力于研发新一代人机交互和人机混合智能技术。我们的研究覆盖基础科学到工程实践，旨在打造更智能、直观的未来。关注我们，共同探索智能科技的无限可能！

最新文章

华南脑控团队亮相央视总台首届《中国科技创新盛典》

中国人工智能学会脑机融合与生物机器智能专委会召开2024年度工作会议

IEEE TNNLS | 基于脑电网络认知先验图的高效情绪识别图学习系统

2025年Gartner十大战略性技术趋势

J CONTROL RELEASE | 糖尿病智能化治疗新突破：视觉驱动的光遗传系统

2024中国脑机智能大会 | 国际期刊主编圆桌论坛

Applied Soft Computing | 用于面部表情识别的具有自适应通道注意的渐进自蒸馏网络

2024中国脑机智能大会第四轮通知（日程全了！免费注册即将截止！）

IEEE TCYB | 基于过渡感知注意力的睡眠分期深度神经网络

2024中国脑机智能大会 | 听视觉及语言脑机专题论坛

2024中国脑机智能大会 | 脑机融合生命体专题论坛

2024中国脑机智能大会 | 脑机电极与芯片专题论坛

2024中国脑机智能大会第二轮通知（更新分论坛，CAAI会员免注册费）

2024中国脑机智能大会｜Tutorial讲习班内容抢先看

2024中国脑机智能大会｜墙报火热征集中

KDD 2024 | 大模型 Brant-X: Unified Physiological Signal Alignment

2024中国脑机智能大会墙报征文

2024中国脑机智能大会（预通知）

Nature Communications | 构建类脑器官-脑机接口，助力脑损伤修复

NRR杂志CNS文章解读|李晓红团队Nature Communications文章解读：基于脑损伤修复的类器官-脑-机接口研究

IEEE TIP | SelfGCN：用于基于骨架的动作识别的自注意力图卷积网络

NeurIPS 2024 |大模型 EEGPT：通过预训练Transformer实现通用且可靠的脑电图信号表示

脑电大模型 | EEGPT：通过自回归预训练释放脑电通用基础模型的潜能

情感对话的自适应多模态辅助融合策略

ICLR 2024 | 用大量脑机接口脑电数据学习通用表征的脑电大模型

脑机接口 | 全球脑机接口顶级学术会议将于12月6日召开

ACL | Agent-Pro: 通过策略级反思与优化实现学习进化

CVPR 2024 | 简单的语义辅助小样本学习

脑机融合的RSVP-BCI脑电解码及目标检测方法研究

脑机接口(BCI)重要内容：BCI相关术语（十三）

Neural Networks | SFT-SGAT：一种用于情绪识别和意识检测的半监督微调自监督图注意网络

Information Fusion | 使用信息融合识别人脑的层次情绪区域

脑机接口(BCI)重要内容：BCI相关术语（十二）

IEEE TPAMI | 基于专家知识融入深度学习网络架构的多级可解释睡眠阶段评分系统

中国认知科学学会意识科学分会2024学术年会(第三轮通知)

脑机接口(BCI)重要内容：BCI相关术语（十一）

STARTS：一个用于自动E/MEG源成像的自适应时空框架

基于迁移叠加理论的稳态视觉诱发电位跨被试解码模型

IEEE TCYB | 基于相对模糊粗糙集的特征选择与分类

脑机接口(BCI)重要内容：BCI相关术语（十）

脑机团队本科生保研心得分享

脑机接口(BCI)重要内容：BCI相关术语（九）

IEEE TNNLS | 用于不完整多视角聚类的增强稀疏表示法

脑机接口(BCI)重要内容：BCI相关术语（八）

IEEE TNSRE | 融合脑电与眼动追踪的多模态脑机接口：开辟意识障碍患者辅助交流新途径

脑机接口(BCI)重要内容：BCI相关术语（七）

IEEE TAFFC | 自监督对比域泛化技术解码意识障碍患者的音乐神经活动

脑机接口(BCI)重要内容：BCI相关术语（六）

IEEE TBME | 基于可穿戴式脑机接口进行实时注意力调节和认知监测系统

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉