首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

南大&阿里发布多模态大模型WINGS，解决基于LLM的多模态训练灾难遗忘问题

科技 2024-11-05 23:16 北京

点关注，不迷路，用心整理每一篇算法干货~

后台留言”交流“，加入圆圆算法交流群~

👇🏻扫码👇🏻加入圆圆算法知识星球~

（文末送双11优惠券！）

（已有910+同学加入学习，700+干货笔记）

今天给大家介绍一篇南京大学、阿里巴巴联合发表的多模态模型建模方法WINGS，解决基于LLM的多模态模型在进行跨模态建模时的灾难遗忘问题。

论文标题：WINGS: Learning Multimodal LLMs without Text-only Forgetting

下载地址：https://arxiv.org/pdf/2406.03496

1

研究背景

随着人工智能技术的进步，多模态大型语言模型（MLLMs）作为大型语言模型（LLMs）的扩展，已经在视觉相关的描述生成、理解、推理等方面展现出惊人的性能。这些模型通过整合视觉输入（如图像）和文本输入，能够处理更复杂的任务。

尽管MLLMs在多模态任务中表现出色，但研究发现它们在训练过程中会遗忘初始LLM所掌握的纯文本指令。这种现象被称为“灾难性遗忘”，严重影响了模型在仅涉及文本的任务上的性能。

为了解决灾难性遗忘问题，现有的方法通常需要额外的文本数据进行训练，这不仅增加了计算开销，还面临数据收集的挑战。此外，一些方法通过在LLM和MLLM之间切换来处理图像是否包含的情况，这增加了部署内存的需求，并且在长期的视觉和语言交替对话中不太高效。

为了使MLLMs在实际应用中更加有效，需要它们既能处理纯文本任务，也能处理多模态任务。用户经常以纯文本查询开始，如果不满足，则可能会补充图像内容。因此，MLLMs需要在保持对文本信息关注的同时，也能处理视觉信息。

论文通过分析MLLM的注意力权重，发现文本遗忘现象与注意力从图像前文本转移到图像后文本有关。这种注意力的转移表明模型过度关注视觉元素，而忽视了文本元素。

为了解决上述问题，论文提出了WINGS模型，它通过引入额外的模块来补偿注意力转移，这些模块作为增强学习者，与主注意力并行工作，以平衡对视觉和文本元素的关注。

WINGS模型采用了低秩残差注意力（LoRRA）设计，以保证高效率，同时在文本和视觉问答任务中实现卓越的性能。

综上所述，这篇论文的背景和动机是解决MLLMs在多模态学习中遇到的灾难性遗忘问题，并提高模型在处理纯文本和多模态任务时的效率和性能，以实现更广泛的应用和更好的用户体验。

2

建模方法

WINGS模型和核心点包含以下几个方面。

视觉和文本学习者的并行结构：WINGS通过在每个注意力层级中引入视觉学习者（LearnerV）和文本学习者（LearnerT），这两个学习者并行工作，分别增强模型对视觉和文本特征的关注，这种结构设计提高了模型处理多模态数据的能力。

基于注意力权重的动态路由：WINGS利用基于注意力权重的路由机制来动态调整视觉和文本学习者的输出，这种机制可以根据当前的注意力分布来优化模型的响应，提高了模型的适应性和灵活性。

低秩残差注意力（LoRRA）：WINGS采用了低秩残差注意力（Low-Rank Residual Attention, LoRRA）架构，这种架构通过使用低秩矩阵来减少参数数量和计算需求，同时保持了模型的效率和性能。

分阶段训练策略：WINGS采用了分阶段训练策略，首先对视觉学习者进行训练，然后逐步引入文本学习者和路由机制，这种策略有助于逐步调整和优化模型，使其更好地适应多模态数据。

新构建的交错图像-文本（IIT）基准测试：WINGS的研究人员构建了一个新的基准测试，即交错图像-文本（Interleaved Image-Text, IIT）基准测试，这个基准测试包含了从纯文本到强烈图像相关的多轮对话，用于更全面地评估模型在多模态任务上的性能。

多模态混合输入的处理能力：WINGS能够处理混合了视觉和文本特征的输入，这种能力使得模型可以更灵活地应用于各种实际场景，如视觉问答、图像描述生成等。

模型的可扩展性和适应性：WINGS展示了在不同规模的模型中的可扩展性，包括WINGSbase、WINGSpro和WINGS1.8B版本，这些版本适应不同的应用场景和设备要求，显示了模型的广泛适用性。

对注意力机制的深入分析和应用：WINGS通过深入分析MLLM的注意力机制，揭示了注意力权重与模型性能之间的关系，并据此设计了模型结构和训练策略，这种对注意力机制的深入理解和应用是WINGS的一个显著特点。

这些创新点共同使得WINGS模型在多模态任务中表现出色，不仅解决了灾难性遗忘问题，还提高了模型的效率、适应性和泛化能力。

3

实验分析

在解决多模态训练过程中对文本指令的灾难性遗忘问题。实验结论主要包括以下几点：

文本指令遗忘现象：论文验证了多模态大型语言模型（MLLM）在训练过程中对初始大型语言模型（LLM）已掌握的纯文本指令的遗忘现象，并将此现象与跨层MLLM-LAWS（Layer-level Attention Weights）前后图像的注意力转移相关联。

WINGS架构的有效性：WINGS通过引入视觉和文本学习者以及基于转移注意力权重的路由机制，有效地补偿了注意力转移。实验结果表明，WINGS在同等规模的MLLM中，在文本指令和视觉问答任务上均表现优异。

性能比较：WINGS在多个基准测试中超越了其他同等规模的MLLM，包括文本指令遗忘测试、通用多模态基准测试，以及新构建的交错图像-文本（IIT）基准测试。WINGS在从纯文本到多模态丰富的问答任务中展现了卓越的性能。

效率与性能：WINGS采用了低秩残差注意力（LoRRA）设计，确保了学习者的高效率。实验结果表明，WINGS在保持文本指令性能的同时，也能在多模态任务中提高性能，尤其是在资源受限的情况下。

可扩展性：WINGS证明了其在不同规模的模型中的可扩展性，包括WINGSbase、WINGSpro和WINGS1.8B版本，适应不同的应用场景和设备要求。

训练策略：论文还探讨了不同的训练策略，包括学习率设置和训练阶段，发现较低的学习率有助于保持文本任务的性能，而较高的学习率则有助于提升多模态任务的性能。

组件有效性：通过消融研究，论文分析了WINGS各个组件的有效性，发现仅包含视觉学习者可以轻微保持文本任务的性能，但会降低多模态任务的性能。

综上所述，WINGS通过其创新的架构和训练策略，在处理纯文本和多模态任务时均展现出了卓越的性能和泛化能力。

END

后台留言”交流“，加入圆圆算法交流群~

后台留言”星球“，加入圆圆算法知识请星球~【时序预测专题课程持续更新中】

知识星球提供一文贯通笔记、经典代码解析、问答服务、新人入门，已有910+小伙伴加入，价格随人数增加和内容丰富上涨，感兴趣的同学尽早加入~

双11优惠券，扫码领取！

投稿&加交流群请加微信，备注机构+方向拉群~

【历史干货算法笔记】

生成式模型入门：一文讲懂3大类生成式模型

Sptial-Temporal时空预测总结：建模思路、优化方法梳理

时序预测顶会论文数据集、数据处理方法、训练方法汇总

时间序列预测实战方法概述：从数据到模型

Informer模型结构和代码解析

基于Transformer的时序预测模型TFT代码详解

时空预测经典模型STGCN原理和代码解读

一网打尽：14种预训练语言模型大汇总

Vision-Language多模态建模方法脉络梳理

花式Finetune方法大汇总

从ViT到Swin，10篇顶会论文看Transformer在CV领域的发展历程

如果觉得有帮助麻烦分享在看点赞~

http://mp.weixin.qq.com/s?__biz=MzIyOTUyMDIwNg==&mid=2247491468&idx=1&sn=499c1ddd9d424f6b621f16d7e376f014

圆圆的算法笔记

定期更新深度学习/算法干货笔记和世间万物学习记录~

最新文章

清华大学提出基于多模态大模型的时间序列异常检测方法

我发现了找顶会创新点的最强公式，真的不需要脑子

最全汇总！2024推荐系统大厂顶会工作整理

检索增强时序预测——大模型RAG建模思路在时序预测中的应用

今天面试了一个字节女生，当场想给她offer！

2024时序预测都有哪些经典工作——总结篇

微软亚研院&港科技最新时序预测Transformer优化工作，灵活支持可变长预测窗口

针对长周期非平稳多元时间序列的异常检测方法

NeurIPS'24：针对时序预测中时间戳特征的研究

发一篇顶会真不难

RecSys'24大厂推荐模型工作汇总，涉及CVR预估/广告预估纠偏/大模型/多任务学习等多个主题

高效的卷积+Attention多元时序预测模型结构，实现长短期&变量间关系建模

最后3天！双11星球特惠~

适用于各类结构&领域时序数据的通用时序预测模型

最后3天！双11星球特惠~

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Salesforce推出首个通用时序预测模型评测基准GIFT-Eval，助力时序通用基础模型研究

南大&阿里发布多模态大模型WINGS，解决基于LLM的多模态训练灾难遗忘问题

港科技&MIT&浙大联合发布通用时序特征机器TimeMixer++，多项任务取得SOTA效果

双11星球优惠券来啦~

Salesforce推出Moirai-MoE，新视角设计下一代时序基础模型

免费白皮书《从头训练大模型最佳实践》

清华大学NeurIPS'24：时序大模型AutoTimes，结合In-context Learning提升预测效果

时间序列模型深度解析知识库

NIPS 2024时间序列工作——公众号已更新文章汇总

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习

FoundTS：时间序列预测基础模型的全面统一测评基准

剑桥大学时间序列对比学习新方法，缓解伪负样本影响

时间序列+深度学习干货笔记专栏

几篇KDD'24大厂推荐系统优化工作总结

华为诺亚方舟实验室与华东师范大学联合发布时序预测通用模型ROSE——轻量规模，SOTA效果！

（更新至27节）时间序列预测专题系列干货文章

清华大学最新发布：统一时序预测模型，上下文长度首次扩展至千级别，适用各类数据集

重磅！机器学习时间序列预测+Transformer，堪称顶会收割机！

上交最新时空预测模型PredFormer，纯Transformer架构，多个数据集取得SOTA效果

阿里达摩院最新多模态大模型介绍，多项图文任务取得SOTA效果

20场kaggle时间序列比赛Top方案GrandMaster整理

时序预测数据处理新方法汇总：多粒度和频域的可逆归一化

腾讯KDD‘24公开最新广告推荐系统建模方案

近7年深度学习时序预测建模方法汇总

普林斯顿大学提出首个基于MoE的稀疏时序预测大模型，参数量扩展到2.4billion

15种金融时间序列预测方法总结

时序预测中的多类型模型组合建模方案

时间序列预测专题系列干货文章

KDD'24系列：统一时间序列预训练Transformer

Transformer手撕BP，当场拿了offer

不会捞“偏门”，这辈子别想发计算机顶会顶刊！

一文汇总：长周期时序预测有哪些优化点？

LSTM+transformer=金融时序预测超高精准度！

高维多变量下的Transformer时序预测建模方法

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉