从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

文摘 2024-09-15 08:00 美国

多模态情感识别（Multimodal Emotion Recognition, MER）是人机交互（HCI）领域的重要研究方向。通过整合语音、图像、文本和视频等多种模态的信息，MER能够更准确地识别和理解人类的情感状态。这不仅提升了人机交互的质量，还能促进用户与技术之间更深层次的连接。例如，在教育、医疗和娱乐等领域，情感识别技术可以提供更加个性化和人性化的服务，显著改善用户体验。

在第二届多模态情感识别挑战赛 Track 1（MER2024-SEMI）上，在来自（Soul AI）的研究团队提出通过引入视觉语言提示学习（Vision-language Prompting）和模态丢失（Modality Dropout）技术来提高多模态情感识别的准确性和泛化性能。研究团队提出了EmoVCLIP模型，通过在CLIP模型上进行视觉语言提示学习，提升其在情感视频上的表现。同时，采用模态丢失技术，解决多模态融合中的模态依赖问题，增强信息融合的鲁棒性。此外结合GPT-4和Baichuan模型，进一步提升文本情感特征的提取能力。实验结果表明，他们的模型在MER2024-SEMI赛道上排名第一，在测试集上达到了90.15%的准确率。

研究团队 9 月 11 日在arXiv 上提交了技术论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》，介绍了他们在第二届多模态情感识别挑战赛 Track 1（MER2024-SEMI）的解决方案。MER2024-SEMI挑战赛旨在推动多模态情感识别技术的发展，吸引了来自全球的研究团队参与。挑战赛提供了带标签的训练和验证集，以及不带标签的测试集，参赛团队需要在这些数据集上进行模型训练和测试，以评估其情感识别模型的性能。

这项技术成果由上海Soulgate科技有限公司（Soul AI）的研究团队完成，团队成员包括Anbin QI、Zhongliang Liu、Xinyong Zhou、Jinba Xiao、Fengrun Zhang、Qi Gan、Ming Tao、Gaozheng Zhang和Lu Zhang。团队成员均在人工智能和情感识别领域具有丰富的研究经验，他们的工作主要集中在通过多模态数据融合和先进的机器学习技术，提升情感识别的准确性和鲁棒性。

相关工作

自训练是一种简单而有效的半监督学习方法，其核心思想是通过将未标记数据与生成的伪标签一起加入到标记数据集中，从而增加训练数据量，提升模型性能。在MER2023挑战赛中，自训练方法展示了其在情感识别任务中的潜力。具体来说，自训练方法通过初始训练一个基础的情感识别模型，然后利用该模型对未标记数据生成伪标签，将这些伪标签数据与原始标记数据一起重新训练模型。这样模型可以从更多的数据中学习，显著提高情感识别的准确性和泛化能力。

多模态融合的优势在于其能够整合和利用来自多种模态的互补信息，从而丰富下游任务的表示。然而，在多模态融合过程中，模态竞争问题常常导致只有部分模态在训练中有效学习并对最终模型贡献，而其他模态则未被充分利用。为了解决这一问题，研究者们提出了多种方法。例如，有研究通过直接丢弃文本模态来提高识别性能，另有研究提出了在线梯度调制方法来缓解模态竞争。此外，模态丢弃技术也被提出，通过在训练过程中随机丢弃某些模态，从而促进不同模态特征的融合，提升模型的泛化能力。

在视频理解任务中，视频通常被视为图像帧的时间序列，视频处理方法通常利用图像模型并结合时间信息来捕捉动态变化和上下文关系。CLIP模型通过对大规模图像-文本对进行对比学习，实现了跨模态的理解和生成。在视频任务中，视频版CLIP模型通常通过添加可学习的时间-空间建模组件，如自注意力层和额外的提示，来提高视频分析能力。具体而言，视频版CLIP模型在每一层的图像编码器和文本编码器中添加可学习的提示标记，从而在保持CLIP模型自身泛化能力的同时，学习视频时间序列的相关性。这种方法不仅提高了情感识别的性能，还展示了CLIP模型在视频理解任务中的广泛应用潜力。

这些相关工作的介绍为理解本研究的创新方法提供了理论基础和实践背景。通过结合自训练、多模态融合和CLIP模型的优势，本研究在多模态情感识别领域取得了显著的进展。

方法

模型架构

图1：提出的方法的框架。

本研究提出的多模态情感识别模型由多个单模态特征提取器和一个多模态特征融合网络组成。具体来说，输入数据包括语音（𝑥𝑆）、图像（𝑥𝐼）、文本（𝑥𝑇）和视频（𝑥𝑉）四种模态。每种模态的数据首先通过对应的单模态特征提取器，提取出高维特征（𝑓𝑆、𝑓𝐼、𝑓𝑇、𝑓𝑉）。对于视频模态，提出了EmoVCLIP模型，用于提取情感特征。图像模态使用CLIP模型，通过将视频切片为图像帧来提取特征。语音模态通过将原始语音信号输入到HuBERT模型中提取特征。文本模态则结合GPT-4和Baichuan模型，增强情感特征提取能力。所有单模态特征通过时间平均池化得到单模态嵌入（𝑒𝑆、𝑒𝐼、𝑒𝑇、𝑒𝑉），然后在通道维度上进行融合，最终通过融合网络输出情感标签的预测结果。

EmoVCLIP

图2:EmoVCLIP的视觉语言提示学习。文本提示中的<label>表示{中性、愤怒、快乐、悲伤、担忧和惊讶}中的真实情感标签。

EmoVCLIP模型是本研究提出的用于视频情感识别的关键组件。尽管简单的CLIP微调在某些任务中表现出色，但在数据有限的下游任务中，效果并不理想。为了解决这一问题，EmoVCLIP采用了视觉语言提示学习的方法，而不是直接微调CLIP。具体来说，EmoVCLIP在CLIP的图像编码器和文本编码器的每一层中添加了N个可学习的提示标记，这些提示标记在保持CLIP模型结构和参数不变的情况下，帮助模型学习视频时间序列的相关性。通过这种方法，EmoVCLIP能够更好地提取视频中的情感信息，提高情感识别的性能。

模态丢弃技术旨在增强多模态融合的鲁棒性，缓解模态竞争和依赖问题。在多模态融合过程中，不同模态的信息可能会相互竞争，导致某些模态未被充分利用。为了解决这一问题，本研究提出了随机模态丢弃方法。在训练过程中，每种模态的嵌入特征（𝑒𝑆、𝑒𝐼、𝑒𝑇、𝑒𝑉）以一定概率被替换为零向量，从而促进不同模态特征的融合，提升模型的泛化能力。具体来说，模态丢弃的过程可以描述为：在融合网络中，某些模态的嵌入特征被随机丢弃，然后将剩余的特征进行融合，输出情感标签的预测结果。

为了增强文本情感特征的提取能力，研究结合了GPT-4和Baichuan模型。尽管Baichuan在中文任务中表现出色，但在情感识别方面，GPT-4具有更强的情感提取能力。为此，本研究将GPT-4的情感提取能力与Baichuan的中文处理能力结合，通过文本增强的方法，提升文本情感特征的提取效果。具体来说，将文本和提示词输入到GPT-4中，让GPT-4关注文本中的情感信息，并根据文本的情感标签排序。然后，将GPT-4的输出与文本拼接，输入到Baichuan中，得到更丰富的文本情感特征。

自训练策略

自训练策略在利用未标记数据方面展示了其强大的潜力。首先，使用标记数据训练一个基础的多模态情感识别模型。然后，采用迭代自训练策略，将生成的高置信度伪标签数据与原始标记数据一起重新训练模型。具体来说，在每一折交叉验证中，选择每个类别中置信度最高的k个伪标签样本，并设置最大迭代步数Nr。在每一折中，设置最大训练轮数为30，批量大小为64，使用Adam优化器，学习率为3e-4，丢弃率和模态丢弃率均设置为0.3。通过这种方法，模型能够从更多的数据中学习，显著提高情感识别的准确性和泛化能力。

这些方法的结合，使得本研究在多模态情感识别领域取得了显著的进展。通过引入视觉语言提示学习、模态丢弃和自训练策略，模型在情感识别的准确性和鲁棒性方面表现出色，为未来的研究提供了重要的参考和借鉴。

实验与结果

MER2024-SEMI数据集是第二届多模态情感识别挑战赛提供的数据集，旨在推动多模态情感识别技术的发展。该数据集分为两个部分：带标签的训练和验证集（Train & Val）以及不带标签的测试集（Test）。具体来说，训练和验证集包含5030个视频，而测试集包含115595个视频。最终的测试集包含1169个视频，其中包括115595个未标记的视频。由于训练和验证集未进行明确划分，因此本研究采用五折交叉验证的方法，将训练集和验证集进行分割，并在五个验证集上的最佳结果进行加权平均，以获得最终结果。评估指标采用加权平均F-score（WAF），这是由挑战赛组织者定义的标准。

在实验中，研究团队使用了四个特征提取器：Chinese-Hubert-large、CLIP、EmoVCLIP和GPT4-Baichuan。

语音特征提取：从视频中提取24kHz的语音信号，并将其输入到Chinese-Hubert-large模型中。将最后四层的输出相加，作为语音模态的帧级特征。
图像特征提取：使用open-face工具包提取视频中主要人脸的面部特征，并将其对齐到128x128像素，最终获得帧级特征。然后，将每一帧图像输入到CLIP模型中，提取视频级特征。
视频特征提取：直接将视频的每一帧输入到EmoVCLIP模型中，而不使用open-face工具包，以获得视频级特征。在微调EmoVCLIP时，每层设置4个可学习的提示标记，微调CLIP的前12层。
文本特征提取：将文本和提示词输入到GPT4中，获取六类情感标签的概率排序，然后将排序结果与文本拼接，输入到Baichuan中，得到帧级特征。对于帧级特征，计算其均值和方差，并在训练过程中拼接，得到句子级特征。

在多模态融合过程中，结合模态丢弃和基线系统使用的注意力机制，融合不同模态的特征。在自训练过程中，从每个类别中选择置信度最高的前10个伪标签样本，并设置最大迭代步数为10。在每一折交叉验证中，设置最大训练轮数为30，批量大小为64，使用Adam优化器，学习率为3e-4，丢弃率和模态丢弃率均设置为0.3。

结果与分析

实验结果表明，所提出的方法在单模态和多模态情感识别中均优于基线系统。

表1：单模态方法的识别结果

单模态结果

在语音模态中，基线系统使用HuBERT模型的WAF为83.42%，而本研究的方法为82.13%。
在文本模态中，基线系统使用Baichuan模型的WAF为56.63%，而本研究的方法为55.44%。结合GPT4-Baichuan后，WAF提升至56.84%。
在图像模态中，基线系统使用CLIP模型的WAF为63.27%，而本研究的方法为60.02%。使用EmoVCLIP后，WAF提升至61.08%。结合CLIP和EmoVCLIP后，WAF进一步提升至64.18%。

多模态结果

基线系统使用HuBERT、Baichuan和CLIP作为特征提取器，WAF为86.32%。本研究的方法在不使用EmoVCLIP的情况下，WAF为88.68%。使用EmoVCLIP后，WAF提升至89.52%。结合模态丢弃技术后，WAF进一步提升至90.15%。

表2：多模态识别结果。基线系统采用Hubert、百川和CLIP作为特征提取器，而我们的系统使用Hubert、GPT4百川、CLIP和EmoVCLIP。除基线外，以下模型使用自我训练

通过消融实验验证了所提出方法的有效性。结果表明，EmoVCLIP在情感特征提取方面优于CLIP，且EmoVCLIP和CLIP具有互补特性。此外，GPT4-Baichuan在文本情感识别中表现更好，但与Baichuan之间没有互补性。模态丢弃技术在融合不同模态特征方面表现出色，缓解了模态依赖和竞争问题，显著提升了模型的泛化能力。

综上所述，研究通过引入视觉语言提示学习、模态丢弃和自训练策略，在多模态情感识别领域取得了显著的进展。实验结果验证了所提出方法的有效性，为未来的研究提供了重要的参考和借鉴。

结论

研究成果在多模态情感识别领域取得了显著的进展，提出了几种创新的方法来提高情感识别的准确性和泛化性能。

EmoVCLIP模型：通过视觉语言提示学习，EmoVCLIP模型在情感视频识别任务中表现出色。该模型在CLIP的基础上进行微调，能够更好地提取视频中的情感信息。

模态丢弃技术：为了解决多模态融合中的模态依赖和竞争问题，研究团队提出了模态丢弃技术。该技术通过在训练过程中随机丢弃某些模态，增强了多模态融合的鲁棒性，显著提升了模型的泛化能力。

GPT4-Baichuan结合：结合GPT-4和Baichuan模型，增强了文本情感特征的提取能力。GPT-4的情感提取能力与Baichuan的中文处理能力相结合，使得文本情感识别更加准确。

自训练策略：采用自训练策略，利用未标记数据生成高置信度伪标签，并将其纳入训练集，显著提高了情感识别的准确性和泛化能力。

实验结果表明，所提出的方法在单模态和多模态情感识别中均优于基线系统。特别是在使用模态丢弃和自训练策略后，模型在测试集上的加权F1得分达到了90.15%。这些结果验证了所提出方法的有效性，为多模态情感识别领域提供了重要的参考和借鉴。

尽管本研究取得了显著的成果，但仍有一些方面可以进一步改进和探索。

数据集扩展：未来可以考虑扩展数据集的规模和多样性，特别是增加不同文化背景和语言的数据，以提高模型的泛化能力和适用性。

模型优化：进一步优化模型架构和训练策略，例如探索更先进的特征提取器和融合方法，以提升情感识别的性能。

实时情感识别：研究如何在实时应用中实现高效的多模态情感识别，特别是在资源受限的设备上，如移动设备和嵌入式系统。

跨领域应用：探索多模态情感识别在不同领域的应用，如教育、医疗、娱乐等，以验证其在实际场景中的效果和潜力。

用户个性化：研究如何结合用户的个性化信息，提供更加个性化和人性化的情感识别服务，提升用户体验。

总之，研究团队为多模态情感识别领域提供了新的思路和方法，未来的研究可以在此基础上进一步探索和创新，推动情感识别技术的发展和应用。（END）

参考资料：https://arxiv.org/pdf/2409.07078

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486495&idx=1&sn=fe8827c499ea49db703fc3eaeae8c281

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉