多模态情感识别(Multimodal Emotion Recognition, MER)是人机交互(HCI)领域的重要研究方向。通过整合语音、图像、文本和视频等多种模态的信息,MER能够更准确地识别和理解人类的情感状态。这不仅提升了人机交互的质量,还能促进用户与技术之间更深层次的连接。例如,在教育、医疗和娱乐等领域,情感识别技术可以提供更加个性化和人性化的服务,显著改善用户体验。
在第二届多模态情感识别挑战赛 Track 1(MER2024-SEMI)上,在来自(Soul AI)的研究团队提出通过引入视觉语言提示学习(Vision-language Prompting)和模态丢失(Modality Dropout)技术来提高多模态情感识别的准确性和泛化性能。研究团队提出了EmoVCLIP模型,通过在CLIP模型上进行视觉语言提示学习,提升其在情感视频上的表现。同时,采用模态丢失技术,解决多模态融合中的模态依赖问题,增强信息融合的鲁棒性。此外结合GPT-4和Baichuan模型,进一步提升文本情感特征的提取能力。实验结果表明,他们的模型在MER2024-SEMI赛道上排名第一,在测试集上达到了90.15%的准确率。
研究团队 9 月 11 日在arXiv 上提交了技术论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》,介绍了他们在第二届多模态情感识别挑战赛 Track 1(MER2024-SEMI)的解决方案。MER2024-SEMI挑战赛旨在推动多模态情感识别技术的发展,吸引了来自全球的研究团队参与。挑战赛提供了带标签的训练和验证集,以及不带标签的测试集,参赛团队需要在这些数据集上进行模型训练和测试,以评估其情感识别模型的性能。
这项技术成果由上海Soulgate科技有限公司(Soul AI)的研究团队完成,团队成员包括Anbin QI、Zhongliang Liu、Xinyong Zhou、Jinba Xiao、Fengrun Zhang、Qi Gan、Ming Tao、Gaozheng Zhang和Lu Zhang。团队成员均在人工智能和情感识别领域具有丰富的研究经验,他们的工作主要集中在通过多模态数据融合和先进的机器学习技术,提升情感识别的准确性和鲁棒性。
相关工作
自训练是一种简单而有效的半监督学习方法,其核心思想是通过将未标记数据与生成的伪标签一起加入到标记数据集中,从而增加训练数据量,提升模型性能。在MER2023挑战赛中,自训练方法展示了其在情感识别任务中的潜力。具体来说,自训练方法通过初始训练一个基础的情感识别模型,然后利用该模型对未标记数据生成伪标签,将这些伪标签数据与原始标记数据一起重新训练模型。这样模型可以从更多的数据中学习,显著提高情感识别的准确性和泛化能力。
多模态融合的优势在于其能够整合和利用来自多种模态的互补信息,从而丰富下游任务的表示。然而,在多模态融合过程中,模态竞争问题常常导致只有部分模态在训练中有效学习并对最终模型贡献,而其他模态则未被充分利用。为了解决这一问题,研究者们提出了多种方法。例如,有研究通过直接丢弃文本模态来提高识别性能,另有研究提出了在线梯度调制方法来缓解模态竞争。此外,模态丢弃技术也被提出,通过在训练过程中随机丢弃某些模态,从而促进不同模态特征的融合,提升模型的泛化能力。
在视频理解任务中,视频通常被视为图像帧的时间序列,视频处理方法通常利用图像模型并结合时间信息来捕捉动态变化和上下文关系。CLIP模型通过对大规模图像-文本对进行对比学习,实现了跨模态的理解和生成。在视频任务中,视频版CLIP模型通常通过添加可学习的时间-空间建模组件,如自注意力层和额外的提示,来提高视频分析能力。具体而言,视频版CLIP模型在每一层的图像编码器和文本编码器中添加可学习的提示标记,从而在保持CLIP模型自身泛化能力的同时,学习视频时间序列的相关性。这种方法不仅提高了情感识别的性能,还展示了CLIP模型在视频理解任务中的广泛应用潜力。
这些相关工作的介绍为理解本研究的创新方法提供了理论基础和实践背景。通过结合自训练、多模态融合和CLIP模型的优势,本研究在多模态情感识别领域取得了显著的进展。
方法
模型架构
图1:提出的方法的框架。
本研究提出的多模态情感识别模型由多个单模态特征提取器和一个多模态特征融合网络组成。具体来说,输入数据包括语音(𝑥𝑆)、图像(𝑥𝐼)、文本(𝑥𝑇)和视频(𝑥𝑉)四种模态。每种模态的数据首先通过对应的单模态特征提取器,提取出高维特征(𝑓𝑆、𝑓𝐼、𝑓𝑇、𝑓𝑉)。对于视频模态,提出了EmoVCLIP模型,用于提取情感特征。图像模态使用CLIP模型,通过将视频切片为图像帧来提取特征。语音模态通过将原始语音信号输入到HuBERT模型中提取特征。文本模态则结合GPT-4和Baichuan模型,增强情感特征提取能力。所有单模态特征通过时间平均池化得到单模态嵌入(𝑒𝑆、𝑒𝐼、𝑒𝑇、𝑒𝑉),然后在通道维度上进行融合,最终通过融合网络输出情感标签的预测结果。
EmoVCLIP
图2:EmoVCLIP的视觉语言提示学习。文本提示中的<label>表示{中性、愤怒、快乐、悲伤、担忧和惊讶}中的真实情感标签。
EmoVCLIP模型是本研究提出的用于视频情感识别的关键组件。尽管简单的CLIP微调在某些任务中表现出色,但在数据有限的下游任务中,效果并不理想。为了解决这一问题,EmoVCLIP采用了视觉语言提示学习的方法,而不是直接微调CLIP。具体来说,EmoVCLIP在CLIP的图像编码器和文本编码器的每一层中添加了N个可学习的提示标记,这些提示标记在保持CLIP模型结构和参数不变的情况下,帮助模型学习视频时间序列的相关性。通过这种方法,EmoVCLIP能够更好地提取视频中的情感信息,提高情感识别的性能。
模态丢弃技术旨在增强多模态融合的鲁棒性,缓解模态竞争和依赖问题。在多模态融合过程中,不同模态的信息可能会相互竞争,导致某些模态未被充分利用。为了解决这一问题,本研究提出了随机模态丢弃方法。在训练过程中,每种模态的嵌入特征(𝑒𝑆、𝑒𝐼、𝑒𝑇、𝑒𝑉)以一定概率被替换为零向量,从而促进不同模态特征的融合,提升模型的泛化能力。具体来说,模态丢弃的过程可以描述为:在融合网络中,某些模态的嵌入特征被随机丢弃,然后将剩余的特征进行融合,输出情感标签的预测结果。
为了增强文本情感特征的提取能力,研究结合了GPT-4和Baichuan模型。尽管Baichuan在中文任务中表现出色,但在情感识别方面,GPT-4具有更强的情感提取能力。为此,本研究将GPT-4的情感提取能力与Baichuan的中文处理能力结合,通过文本增强的方法,提升文本情感特征的提取效果。具体来说,将文本和提示词输入到GPT-4中,让GPT-4关注文本中的情感信息,并根据文本的情感标签排序。然后,将GPT-4的输出与文本拼接,输入到Baichuan中,得到更丰富的文本情感特征。
自训练策略
自训练策略在利用未标记数据方面展示了其强大的潜力。首先,使用标记数据训练一个基础的多模态情感识别模型。然后,采用迭代自训练策略,将生成的高置信度伪标签数据与原始标记数据一起重新训练模型。具体来说,在每一折交叉验证中,选择每个类别中置信度最高的k个伪标签样本,并设置最大迭代步数Nr。在每一折中,设置最大训练轮数为30,批量大小为64,使用Adam优化器,学习率为3e-4,丢弃率和模态丢弃率均设置为0.3。通过这种方法,模型能够从更多的数据中学习,显著提高情感识别的准确性和泛化能力。
这些方法的结合,使得本研究在多模态情感识别领域取得了显著的进展。通过引入视觉语言提示学习、模态丢弃和自训练策略,模型在情感识别的准确性和鲁棒性方面表现出色,为未来的研究提供了重要的参考和借鉴。
实验与结果
语音特征提取:从视频中提取24kHz的语音信号,并将其输入到Chinese-Hubert-large模型中。将最后四层的输出相加,作为语音模态的帧级特征。 图像特征提取:使用open-face工具包提取视频中主要人脸的面部特征,并将其对齐到128x128像素,最终获得帧级特征。然后,将每一帧图像输入到CLIP模型中,提取视频级特征。 视频特征提取:直接将视频的每一帧输入到EmoVCLIP模型中,而不使用open-face工具包,以获得视频级特征。在微调EmoVCLIP时,每层设置4个可学习的提示标记,微调CLIP的前12层。 文本特征提取:将文本和提示词输入到GPT4中,获取六类情感标签的概率排序,然后将排序结果与文本拼接,输入到Baichuan中,得到帧级特征。对于帧级特征,计算其均值和方差,并在训练过程中拼接,得到句子级特征。
在语音模态中,基线系统使用HuBERT模型的WAF为83.42%,而本研究的方法为82.13%。 在文本模态中,基线系统使用Baichuan模型的WAF为56.63%,而本研究的方法为55.44%。结合GPT4-Baichuan后,WAF提升至56.84%。 在图像模态中,基线系统使用CLIP模型的WAF为63.27%,而本研究的方法为60.02%。使用EmoVCLIP后,WAF提升至61.08%。结合CLIP和EmoVCLIP后,WAF进一步提升至64.18%。
结论
研究成果在多模态情感识别领域取得了显著的进展,提出了几种创新的方法来提高情感识别的准确性和泛化性能。
EmoVCLIP模型:通过视觉语言提示学习,EmoVCLIP模型在情感视频识别任务中表现出色。该模型在CLIP的基础上进行微调,能够更好地提取视频中的情感信息。
模态丢弃技术:为了解决多模态融合中的模态依赖和竞争问题,研究团队提出了模态丢弃技术。该技术通过在训练过程中随机丢弃某些模态,增强了多模态融合的鲁棒性,显著提升了模型的泛化能力。
GPT4-Baichuan结合:结合GPT-4和Baichuan模型,增强了文本情感特征的提取能力。GPT-4的情感提取能力与Baichuan的中文处理能力相结合,使得文本情感识别更加准确。
自训练策略:采用自训练策略,利用未标记数据生成高置信度伪标签,并将其纳入训练集,显著提高了情感识别的准确性和泛化能力。
实验结果表明,所提出的方法在单模态和多模态情感识别中均优于基线系统。特别是在使用模态丢弃和自训练策略后,模型在测试集上的加权F1得分达到了90.15%。这些结果验证了所提出方法的有效性,为多模态情感识别领域提供了重要的参考和借鉴。
尽管本研究取得了显著的成果,但仍有一些方面可以进一步改进和探索。
数据集扩展:未来可以考虑扩展数据集的规模和多样性,特别是增加不同文化背景和语言的数据,以提高模型的泛化能力和适用性。
模型优化:进一步优化模型架构和训练策略,例如探索更先进的特征提取器和融合方法,以提升情感识别的性能。
实时情感识别:研究如何在实时应用中实现高效的多模态情感识别,特别是在资源受限的设备上,如移动设备和嵌入式系统。
跨领域应用:探索多模态情感识别在不同领域的应用,如教育、医疗、娱乐等,以验证其在实际场景中的效果和潜力。
用户个性化:研究如何结合用户的个性化信息,提供更加个性化和人性化的情感识别服务,提升用户体验。
总之,研究团队为多模态情感识别领域提供了新的思路和方法,未来的研究可以在此基础上进一步探索和创新,推动情感识别技术的发展和应用。(END)
参考资料:https://arxiv.org/pdf/2409.07078
波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。
加入AI交流群请扫码加微信