论文题目:Leveraging Knowledge of Modality Experts for Incomplete Multimodal Learning
论文作者:许文鑫,江河欣,梁雪峰
论文概述:
受人多感官感知信息启发设计的多模态情感识别方法已在人机交互、对话系统和社交媒体分析等领域展现了充分的应用价值。传统的多模态情感识别模型在实际应用中由于传感器损坏或隐私保护等原因导致部分模态缺失或不可用时,性能下降明显。现有的解决方法侧重于学习跨模态的一致的联合表征以提升模型在模态不完备场景下的表现。然而,本论文发现,这类方法忽视了对含有模态特定知识的单模态表征的学习,在只有一个模态可用的严重模态不完备场景下依然表现不佳。
对此,作者首次定义了模态不完备场景下的单模态和联合表示,并提出了混合模态知识专家(MoMKE)新框架去同时学习它们。该框架采用两阶段训练设置,在单模态专家训练阶段,通过各模态对应的数据训练得到模态知识专家,在专家混合训练阶段,通过利用所有模态专家的知识,学习模态不完备场景下的单模态和联合表征。作者还设计了一个软路由模块,通过动态融合各个表征来进一步丰富模态表征。在三个基准数据集的各个模态不完备场景的实验上,MoMKE显著超过了先前最好的方法,在严重模态不完备场景下的提升尤其明显。论文的消融实验和可视化分析进一步揭示了模态缺失场景下单模态表征和联合表征各自的作用。MoMKE为不完备多模态学习提供了一个新的视角,并为设计真实场景中鲁棒的多模态应用提供了坚实的基础。
梁雪峰,西安电子科技大学华山特聘教授,省部级人才,日本京都府知事奖获得者。主要研究方向包括多模态情感分析(用于对话情感感知、视频吸引力分析、心理健康检测和干预等)以及面向大模型的基础算法研究(视觉+文字模式挖掘算法,噪声标签学习,顺序学习等)。
梁雪峰教授
文案 | 教育中心
编辑|崔浦菁
责编 | 吉 祥
审核 | 陈大明