港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

文摘 2024-10-29 08:31 英国

点击上方蓝字关注我们

Towards Robust Multimodal Sentiment Analysis with Incomplete Data

作者:

Haoyu Zhang, Wenbin Wang, Tianshu Yu

作者单位:

香港中文大学、UCL、武汉大学

论文链接:

https://arxiv.org/html/2409.20012v1

代码链接:

https://github.com/Haoyu-ha/LNLN

简介

多模态情绪分析 (MSA) 领域最近出现了一个新兴方向，旨在解决数据不完整问题。认识到语言模态通常包含密集的情绪信息，文中将其视为主导模态，并提出一种新的语言主导抗噪学习网络 (LNLN) 来实现稳健的 MSA。所提出的 LNLN 具有主导模态校正 (DMC) 模块和基于主导模态的多模态学习 (DMML) 模块，通过确保主导模态表示的质量来增强模型在各种噪声场景中的稳健性。与文献中现有的评估相比，LNLN 始终优于现有基线，提供了额外的统一性、透明度和公平性。

研究动机

针对多模态情绪分析中数据不完整这一主要问题，已有模型的评估指标并不一致，评估设置也不够全面。这种不一致性限制了有效的比较，并阻碍了该领域知识的传播。
假设当主导模态的完整性在不同噪声水平下得以保持时，模型的鲁棒性会提高。

论文贡献

全面评估MOSI、MOSEI 和 SIMS 数据集，引入随机数据缺失实例，比较现有方法在这些数据集上的性能。
提出语言主导的抗噪学习网络 (LNLN)，以增强 MSA 对不完整数据的鲁棒性。
大量的实验结果证明了 LNLN 在这些具有挑战性和广泛的评估指标上的卓越性能

方法

图1 总体框架

如图1所示，一个关键的初始步骤是形成一个随机数据缺失的多模态输入。输入准备好后，LNLN 首先利用嵌入层来标准化每个模态的维度，确保一致性。语言是 MSA 中的主导模态，主导模态校正 (DMC) 模块采用对抗性学习和动态加权增强策略来减轻噪声影响。该模块首先增强从语言模态计算出的主导特征的质量，然后将它们与基于主导模态的多模态学习 (DMML) 模块中的辅助模态（视觉和音频）集成，以实现有效的多模态融合和分类。此过程显着增强了 LNLN 对各种噪声水平的鲁棒性。此外，为了提高网络进行细粒度情绪分析的能力，实现了一个简单的重建器来重建缺失数据，进一步增强了系统的鲁棒性。

输入构建和多模态输入

随机数据丢失。遵循之前的协议，对于每个样本中的每种模态，随机删除了变化的信息比例（从 0% 到 100%）。具体来说，对于视觉和音频形式，用零填充删除的信息。对于语言模态，采用[UNK]填充擦除的信息，这表示BERT中的未知词。

多模态输入。对于数据集中的每个样本，合并来自三种模态的数据：语言、音频和视觉数据。每种模态都使用广泛使用的工具进行处理：使用 BERT 编码语言数据，通过 Librosa 提取音频特征，并使用 OpenFace 获得视觉特征。这些预处理后的输入表示为序列，用表示，其中表示模态类型（l 表示语言，v 表示视觉，a 表示音频），表示序列长度，指每个模态向量的维度。利用获得的，将随机数据缺失应用于，从而形成噪声破坏的多模态输入。

基于主导模态的多模态学习

假设，当主导模态的完整性在噪声水平变化的情况下得到保留时，模型的鲁棒性会提高。在设计的 DMC 模块和重构器的基础上改进了 ALMT，从而实现了基于主导模态的 DMML 模块，用于在随机数据缺失场景下进行情感分析。

模态嵌入。对于多模态输入，采用带有两个 Transformer 编码器层的嵌入编码器来提取和统一特征。每个模态都以随机初始化的低维标记开始。然后，这些标记由 Transformer 编码器层处理，嵌入基本模态信息并生成统一特征，表示为。

自适应超模态学习。在原始的 ALMT 中，每个自适应超模态学习层都包含一个 Transformer 和两个多头注意力（MHA）模块。这些用于在语言模态的指导下学习不同尺度的语言表示以及来自视觉和音频模态的超模态表示。考虑到随机数据丢失可能对语言模态（即主导模态）造成严重干扰，文中设计了主导模态校正（DMC）模块来生成代理主导特征并构造校正后的主导特征。具体来说，学习不同尺度下的校正主导表示的过程可以描述为：

为了学习超模态表示，校正后的主导特征和音频/视觉特征分别用于计算查询和键/值。简单来说，流程如下：

其中表示多头注意力，是超模态特征。请注意，特征是随机初始化向量。

多模态融合和预测。利用获得的和，采用具有 4 层深度分类器的 Transformer 编码器进行多模态融合和情感预测：

主导模态校正

这个模块由两个步骤组成，即使用对抗性学习对主导模态进行完整性检查和代理主导特征生成。

完整性检查。应用一个编码器，它由一个两层深度的 Transformer 编码器和一个用于完整性检查的分类器组成。例如，如果主导模态的缺失率为 0.3，则完整性标签为 0.7。该完整性预测 w 可以通过以下方式获得：

代理主导特征生成。利用随机初始化的特征、视觉特征和音频特征，采用代理主导特征生成器，它由两个 Transformer 编码器层组成。该设置生成代理主导特征，旨在补充和纠正主导模态。校正后的主导特征是通过结合和语言特征计算的，并由预测完整性 w 加权：

重构器

文中实验表明，重建丢失的信息可以显着增强回归指标，因此，开发了一个重建器，表示为，它包含两个 Transformer 层，旨在有效地重建每种模态的缺失信息。重建器的运算方程为：

为了优化重建器的性能，应用 L2 损失函数：

总体学习目标

综上所述，该方法涉及四个学习目标，包括完整性检查损失、用于代理主导特征生成的对抗性学习损失、重建损失和最终情感预测损失。情感预测损失可以描述为：

因此，总损失L可以写为：

实验结果

表1和表2显示了MOSI、MOSEI和SIMS数据集的鲁棒性评估结果。如表 1 所示，LNLN 在大多数指标上都实现了最先进的性能。例如，在MOSI数据集上，与MMIM获得的次优结果相比，LNLN在Acc-7上取得了9.46%的相对改进，证明了LNLN在面对不同噪声影响时的鲁棒性。

如图2所示，展示了几种先进方法在不同缺失率下的性能曲线。结果表明，所提出的 LNLN 在大多数情况下始终优于其他模型，显示出其在不同缺失率下的稳健性。

致谢作者，转载请注明出处，关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

最新文章

AAAI 2025｜MambaPro:多模态目标重识别!Mamba聚合+协同提示！

或许是全网最全的 DeepSeek 使用指南，90% 的人都不知道的使用技巧（建议收藏）

东南大学&腾讯&浙大联合提出全新多任务视觉Grounding模型，粗到细一致性约束提升多模态理解能力！

一文彻底搞懂多模态 - 多模态理解

我发现了找顶会创新点的最强套路，真的不需要脑子

微软&清华重磅发布！突破性多模态潜在语言模型引入Next-Token Diffusion！

AAAI 2025｜西工大、阿里等机构提出负增强样本增强细粒度视觉语言预训练模型！

《深入浅出多模态》中：多模态模型原理总结

浙大&阿里联手打造2025开年巨作！AI自动生成教科书，视觉语言预训练引领多模态课堂新革命！

百花齐放的大模型，是昙花一现还是未来技术基底？

CVPR 2024｜ VCoder发布！多模态大模型的多功能视觉编码器来了！

Meta重磅发布！Byte Latent Transformer：未来的大语言模型将颠覆Token机制？

AAAI 2025｜复旦大学构建因果干预模块，实现人类语言序列的去偏多模态理解

均衡多模态学习

NeurIPS 2024| 南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025｜突破视听边界！跨模态一致性与多时间粒度协作，精准锁定密集事件定位

《深入浅出多模态》上：多模态技术理论基础

为什么说在中国做科研最忌讳踏实？

Google DeepMind推出新突破！无需提示的思路链推理大语言模型，AI逻辑能力再进化！

Google DeepMind重磅发布！强化学习训练语言模型实现自我纠正，AI能力再升级！

今年顶会这情况。。。大家提前做准备吧！

ICLR 2025｜Top3高分论文HyCoCLIP：双曲视觉语言模型的组合蕴涵学习

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

2024年底人工智能大会全整理！错过就要等一年，最后机会千万别错过！

ECCV 2024｜攻克缺失模态预测难题！单模态联合嵌入赋能非配对多模态学习

多模态大模型在具身智能领域里程碑工作！清华&字节开源DeeR-VLA：让算力内存双降

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

阿德莱德大学携手中科院发布VL-Mamba！多模态学习的状态空间模型震撼登场

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

TPAMI 2024｜模仿人类视觉感知！中科院等提出小样本分割新方法：提示+迁移，动态增强类别感知

AAAI 2024｜GPT4MTS-多模态时间序列预测的全新提示式大语言模型

多模态 | 多模态 CLIP 详解与使用

ECCV 2024 ｜多模态图像表格表示学习 -- 创新自监督方法解决数据缺失问题

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉