在机器学习与人工智能的广袤领域中,【小样本学习 + 多模态】宛如一颗璀璨的新星,正冉冉升起。这一前沿方向致力于攻克标注数据匮乏场景下多模态信息处理的棘手难题。其核心在于创新算法与模型的精心雕琢,这些成果宛如一把把神奇的钥匙,显著提升了系统对文本、图像、声音等多种模态数据的理解与剖析深度。尤为值得一提的是,即便仅能依靠少量标注样本进行训练,它们依然能够展现出卓越的性能。从自动情感分析到精准视觉识别,再到自然语言处理,这些研究成果如同强劲的助推器,为众多应用的性能提升注入了澎湃动力。它们不仅是技术进步的体现,更为人工智能在更广泛现实场景中的落地生根与普及化应用,铺平了坚实的道路,引领我们迈向更加智能、高效的未来。
为了帮助大家全面掌握【小样本学习+多模态】的方法并寻找创新点,本文总结了最近两年【小样本学习+多模态】相关的13篇顶会顶刊论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。
需要的同学扫码添加我
回复“小样本学习+多模态”即可全部领取
一、Active Exploration of Multimodal Complementarity for Few-Shot Action Recognition
1.方法
该论文提出了一个名为AMFAR(Active Multimodal Few-shot Action Recognition)的新框架,用于探索多模态互补性以提高少量镜头动作识别(Few-Shot Action Recognition, FSAR)的性能。
1.1主动样本选择(ASS)
通过模态特定的后验分布来组织查询样本,将依赖于任务的上下文信息的可靠模态区分开来,以提高少量镜头推理过程。
1.2主动相互蒸馏(AMD)
从可靠的模态中捕获区分性任务特定知识,并通过双向知识引导流来改善不可靠模态的表示学习。
1.3自适应多模态推理(AMI)
在元测试阶段,通过自适应地融合不同模态的后验分布,重点关注可靠的模态,以进行少量镜头推理。
具体来说,AMFAR的工作流程如下:
利用特定于模态的背景网络提取查询样本和支持样本的多模态表示;
计算模态特定的后验分布;
通过ASS模块选择在两种模态可靠性差异较大的查询样本,并将其分为以RGB为主导的组和以光流为主导的组;
通过AMD机制从可靠的模态中转移任务特定知识,以改善不可靠模态的表示学习;
在元测试阶段,采用AMI通过重点关注可靠的模态来适应性地融合不同模态的预测结果。
2.创新点
2.1模态依赖策略
首次采用主动学习的思想来探索少量镜头学习中的多模态互补性。
2.2主动相互蒸馏
提出了一种双向知识引导流,通过主动分配更可靠的模态作为教师来动态地进行知识蒸馏。
2.3自适应多模态推理
提出了一种自适应融合策略,以在少量镜头推理中重点关注可靠的模态。
论文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Wanyan_Active_Exploration_of_Multimodal_Complementarity_for_Few-Shot_Action_Recognition_CVPR_2023_paper.pdf
二、Few-shot Joint Multimodal Aspect-Sentiment Analysis Based on Generative Multimodal Prompt
1.方法
该论文提出了一种新颖的生成式多模态提示(Generative Multimodal Prompt, GMP)模型,用于处理多模态少量镜头(few-shot)情境下的多模态基于方面的情态分析(MABSA)。
该模型包括以下几个关键部分:
多模态编码器(Multimodal Encoder, ME)模块:用于捕获文本和图像模态的表示;
N流解码器(N-Stream Decoders, NSD)模块:用于预测每个实例中的方面项数量,并生成针对每个方面的提示;
方面项数量预测的子任务:通过预测每个实例中的方面项数量来构建多模态提示;
多模态提示的构建:基于图像标题、预测的方面项数量、方面提示和情感提示,构建用于不同任务的特定多模态提示;
三元组序列生成:将多模态嵌入和多模态提示输入到基于编码器-解码器的BART模型中,生成三元组序列。
2.创新点
2.1针对少量镜头多模态情态分析的生成式多模态提示模型
这是首次在多模态少量镜头情境下关注联合多模态基于方面的情态分析(JMASA)和多模态方面项提取(MATE)任务。
2.2多任务学习
通过预测方面项数量的子任务来解决方面项数量未知的挑战,并构建有效的多模态提示。
2.3多模态编码器和N流解码器的设计
通过这种设计,模型能够生成针对每个方面的提示,并在少量镜头情境下提高情态分类的准确性。
2.4灵活的多模态提示构建
通过考虑图像标题、预测的方面项数量、方面提示和情感提示,模型能够构建出更丰富、更具信息量的多模态提示。
2.5在少量镜头数据上的实验验证
通过在两个数据集上的广泛实验,证明了该模型在少量镜头设置下相比于强基线模型在JMASA和MASC任务上的性能优势。
论文链接:https://aclanthology.org/2023.findings-acl.735.pdf
需要的同学扫码添加我
回复“小样本学习+多模态”即可全部领取
三、Few-shot Multimodal Sentiment Analysis Based on Multimodal Probabilistic Fusion Prompts
1.方法
该论文提出了一种新颖的方法,名为多模态概率融合提示(Multimodal Probabilistic Fusion Prompts,简称MultiPoint),用于处理少量镜头(few-shot)多模态情感分析任务。
该方法的关键步骤包括:
一致分布采样(Consistently Distributed Sampling, CDS):确保少量镜头数据集的类别分布与完整数据集相似,以便更准确地评估模型性能;
多模态提示设计:设计统一的多模态提示,结合图像提示和文本提示,以减少不同模态之间的差异;
多模态示例(Multimodal Demonstrations):选择与训练数据集中特定标签最相似的多模态支持实例,作为每个实例的多模态上下文;
概率融合:采用概率融合方法,结合多个不同多模态提示的预测结果,以获得更可靠和准确的预测。
2.创新点
2.1一致分布采样(CDS)
这是一种新的采样方法,用于创建反映完整数据集真实分布的少量镜头数据集。
2.2多模态概率融合提示(MultiPoint)
该模型利用统一的多模态提示,结合图像和文本模态,并通过动态选择多模态示例来提高模型的鲁棒性。
2.3概率融合模块
提出了一种新颖的概率融合方法,用于融合来自不同多模态提示的多个预测,以提高情感分析的准确性。
论文链接:https://arxiv.org/pdf/2211.06607
需要的同学扫码添加我
回复“小样本学习+多模态”即可全部领取