点关注,不迷路,用心整理每一篇算法干货~
今天给大家介绍一篇南京大学、阿里巴巴联合发表的多模态模型建模方法WINGS,解决基于LLM的多模态模型在进行跨模态建模时的灾难遗忘问题。
论文标题:WINGS: Learning Multimodal LLMs without Text-only Forgetting
下载地址:https://arxiv.org/pdf/2406.03496
随着人工智能技术的进步,多模态大型语言模型(MLLMs)作为大型语言模型(LLMs)的扩展,已经在视觉相关的描述生成、理解、推理等方面展现出惊人的性能。这些模型通过整合视觉输入(如图像)和文本输入,能够处理更复杂的任务。
尽管MLLMs在多模态任务中表现出色,但研究发现它们在训练过程中会遗忘初始LLM所掌握的纯文本指令。这种现象被称为“灾难性遗忘”,严重影响了模型在仅涉及文本的任务上的性能。
为了解决灾难性遗忘问题,现有的方法通常需要额外的文本数据进行训练,这不仅增加了计算开销,还面临数据收集的挑战。此外,一些方法通过在LLM和MLLM之间切换来处理图像是否包含的情况,这增加了部署内存的需求,并且在长期的视觉和语言交替对话中不太高效。
为了使MLLMs在实际应用中更加有效,需要它们既能处理纯文本任务,也能处理多模态任务。用户经常以纯文本查询开始,如果不满足,则可能会补充图像内容。因此,MLLMs需要在保持对文本信息关注的同时,也能处理视觉信息。
论文通过分析MLLM的注意力权重,发现文本遗忘现象与注意力从图像前文本转移到图像后文本有关。这种注意力的转移表明模型过度关注视觉元素,而忽视了文本元素。
为了解决上述问题,论文提出了WINGS模型,它通过引入额外的模块来补偿注意力转移,这些模块作为增强学习者,与主注意力并行工作,以平衡对视觉和文本元素的关注。
WINGS模型采用了低秩残差注意力(LoRRA)设计,以保证高效率,同时在文本和视觉问答任务中实现卓越的性能。
综上所述,这篇论文的背景和动机是解决MLLMs在多模态学习中遇到的灾难性遗忘问题,并提高模型在处理纯文本和多模态任务时的效率和性能,以实现更广泛的应用和更好的用户体验。
WINGS模型和核心点包含以下几个方面。
视觉和文本学习者的并行结构:WINGS通过在每个注意力层级中引入视觉学习者(LearnerV)和文本学习者(LearnerT),这两个学习者并行工作,分别增强模型对视觉和文本特征的关注,这种结构设计提高了模型处理多模态数据的能力。
基于注意力权重的动态路由:WINGS利用基于注意力权重的路由机制来动态调整视觉和文本学习者的输出,这种机制可以根据当前的注意力分布来优化模型的响应,提高了模型的适应性和灵活性。
低秩残差注意力(LoRRA):WINGS采用了低秩残差注意力(Low-Rank Residual Attention, LoRRA)架构,这种架构通过使用低秩矩阵来减少参数数量和计算需求,同时保持了模型的效率和性能。
分阶段训练策略:WINGS采用了分阶段训练策略,首先对视觉学习者进行训练,然后逐步引入文本学习者和路由机制,这种策略有助于逐步调整和优化模型,使其更好地适应多模态数据。
新构建的交错图像-文本(IIT)基准测试:WINGS的研究人员构建了一个新的基准测试,即交错图像-文本(Interleaved Image-Text, IIT)基准测试,这个基准测试包含了从纯文本到强烈图像相关的多轮对话,用于更全面地评估模型在多模态任务上的性能。
多模态混合输入的处理能力:WINGS能够处理混合了视觉和文本特征的输入,这种能力使得模型可以更灵活地应用于各种实际场景,如视觉问答、图像描述生成等。
模型的可扩展性和适应性:WINGS展示了在不同规模的模型中的可扩展性,包括WINGSbase、WINGSpro和WINGS1.8B版本,这些版本适应不同的应用场景和设备要求,显示了模型的广泛适用性。
对注意力机制的深入分析和应用:WINGS通过深入分析MLLM的注意力机制,揭示了注意力权重与模型性能之间的关系,并据此设计了模型结构和训练策略,这种对注意力机制的深入理解和应用是WINGS的一个显著特点。
这些创新点共同使得WINGS模型在多模态任务中表现出色,不仅解决了灾难性遗忘问题,还提高了模型的效率、适应性和泛化能力。
在解决多模态训练过程中对文本指令的灾难性遗忘问题。实验结论主要包括以下几点:
文本指令遗忘现象:论文验证了多模态大型语言模型(MLLM)在训练过程中对初始大型语言模型(LLM)已掌握的纯文本指令的遗忘现象,并将此现象与跨层MLLM-LAWS(Layer-level Attention Weights)前后图像的注意力转移相关联。
WINGS架构的有效性:WINGS通过引入视觉和文本学习者以及基于转移注意力权重的路由机制,有效地补偿了注意力转移。实验结果表明,WINGS在同等规模的MLLM中,在文本指令和视觉问答任务上均表现优异。
性能比较:WINGS在多个基准测试中超越了其他同等规模的MLLM,包括文本指令遗忘测试、通用多模态基准测试,以及新构建的交错图像-文本(IIT)基准测试。WINGS在从纯文本到多模态丰富的问答任务中展现了卓越的性能。
效率与性能:WINGS采用了低秩残差注意力(LoRRA)设计,确保了学习者的高效率。实验结果表明,WINGS在保持文本指令性能的同时,也能在多模态任务中提高性能,尤其是在资源受限的情况下。
可扩展性:WINGS证明了其在不同规模的模型中的可扩展性,包括WINGSbase、WINGSpro和WINGS1.8B版本,适应不同的应用场景和设备要求。
训练策略:论文还探讨了不同的训练策略,包括学习率设置和训练阶段,发现较低的学习率有助于保持文本任务的性能,而较高的学习率则有助于提升多模态任务的性能。
组件有效性:通过消融研究,论文分析了WINGS各个组件的有效性,发现仅包含视觉学习者可以轻微保持文本任务的性能,但会降低多模态任务的性能。
综上所述,WINGS通过其创新的架构和训练策略,在处理纯文本和多模态任务时均展现出了卓越的性能和泛化能力。
投稿&加交流群请加微信,备注机构+方向拉群~