首个多模态连续学习综述，港中文、清华、UIC联合发布

科技 2024-11-13 13:24 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者来自于港中文、清华和UIC。主要作者包括：余甸之，港中文博士生；张欣妮，港中文博士生；陈焱凯，港中文博士；刘瑷玮，清华大学博士生；张逸飞，港中文博士；Philip S. Yu，UIC教授；Irwin King，港中文教授。

论文标题：Recent Advances of Multimodal Continual Learning: A Comprehensive Survey
论文链接：https://arxiv.org/abs/2410.05352
GitHub地址：https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning

多模态连续学习的最新进展

连续学习（CL）旨在增强机器学习模型的能力，使其能够不断从新数据中学习，而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘：当任务按顺序训练时，新的任务训练会严重干扰之前学习的任务的性能，因为不受约束的微调会使参数远离旧任务的最优状态。尽管连续学习取得了重大进展，但大多数工作都集中在单一数据模态上，如视觉，语言，图，或音频等。这种单模态的关注忽略了现实世界环境的多模态本质，因为现实世界环境本身就很复杂，由不同的数据模态而不是单一模态组成。

随着多模态数据的快速增长，发展能够从多模态来源中连续学习的 AI 系统势在必行，因此出现了多模态连续学习（MMCL）。这些 MMCL 系统需要有效地集成和处理各种多模态数据流，同时还要在连续学习中设法保留以前获得的知识。

尽管传统的单模态 CL 与多模态 CL 之间存在联系，但多模态 CL 所面临的挑战并不仅仅是简单地将 CL 方法用于多模态数据。这种直接的尝试已被证明会产生次优性能。具体而言，如图所示，除了现有的 CL 灾难性遗忘这一挑战外，MMCL 的多模态性质还带来了以下四个挑战。

挑战 1 模态失衡：模态失衡是指多模态系统中不同模态的处理或表示不均衡，表现在数据和参数两个层面。在数据层面，不同模态的数据可用性可能会在 CL 过程中发生显著变化，出现极度不平衡的情况，如缺乏某些模态。在参数层面，不同模态组件的学习可能会以不同的速度收敛，从而导致所有模态的学习过程整体失衡。
挑战 2 复杂模态交互：模态交互发生在模型组件中，在这些组件中，多模态输入信息的表征明确地相互作用。这种交互给 MMCL 带来了独特的挑战，主要体现在两个交互过程中：模态对齐和模态融合。在模态对齐过程中，单个数据样本的不同模态特征往往会在连续学习过程中出现分散，这种现象被称为 MMCL 中的空间紊乱。这种发散可能会导致更严重的性能下降。在模态融合方面，在非 CL 环境中使用的经典多模态融合方法在 MMCL 环境中可能会表现较差，因为不同的融合技术对解决遗忘问题有不同的效果。
挑战 3 高计算成本：在 MMCL 中加入多种模态会大大增加计算成本，无论是在模型层面还是在任务层面都是如此。在模型层面，增加模态不可避免地会增加可训练参数的数量。许多 MMCL 方法利用预训练的多模态模型作为基础。然而，不断对这些大规模模型进行整体微调会带来沉重的计算开销。同样，在特定任务层面，MMCL 方法可能会导致特定任务可训练参数的持续积累，这些参数可能会超过预训练模型中的参数数量，从而抵消了采用连续学习训练模式的效率优势。
挑战 4 预训练零样本能力的退化：随着预训练模型的进步，MMCL 方法可以用这些强大的模型。这些预先训练好的多模态模型经常会表现出零样本能力。然而，在训练过程中，该能力可能会减弱。这种退化风险可能导致未来任务上的严重性能下降，这被称为 MMCL 中的负前向知识转移。

MMCL 算法汇总

为了应对上述挑战，研究人员越来越关注 MMCL 方法。作者将 MMCL 方法分为四类主要方法，即基于正则化、基于架构、基于重放和基于提示的方法。

基于正则化的方法：由于训练中参数的自由移动导致灾难性遗忘，基于正则化的方法旨在对参数施加约束来减少遗忘。
基于架构的方法：该类方法使用不同的模型参数处理不同的任务。基于正则化的方法共享所有参数来学习任务，这使得它们容易受到任务间干扰：即记住旧任务会严重干扰新任务的学习，导致性能下降，尤其是在前向知识转移为负时。相比之下，基于架构的方法通过引入特定于任务的组件来减少任务间干扰。
基于重放的方法：该类方法利用一个情节记忆缓冲区来重放来自先前任务的历史实例，例如数据样本，从而帮助在学习新任务时保持早期知识。这种重放实例的方法避免了基于正则化的方法的严格约束，并规避了在架构基于的方法中动态修改网络架构的复杂性。
基于提示的方法：随着大型模型的快速发展及其在连续学习环境中的应用，基于提示的方法最近应运而生，以更好地利用预训练过程中获得的丰富知识。这些方法的优势在于只需最小的模型调整，减少了广泛微调的需求，而与之前通常需要显著微调或架构修改的方法不同。基于提示的方法的范式通过在连续空间中应用少量提示参数来修改输入，使得模型在学习额外的特定任务信息时能够保留其原有知识。

这些方法主要集中用于视觉和语言模态，同时也有其他方法关注图、音频等其他模态。下图中展示了 MMCL 方法的代表性架构。

以下两张表总结了 MMCL 方法的详细属性。

数据集和基准

大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的，研究人员通常会利用多个数据集或将单个数据集划分为多个子集，以模拟 MMCL 环境中的任务。此外，也存在一些专门用于 MMCL 的数据集，例如 P9D 和 UESTC-MMEA-CL。下表总结了涵盖各种连续学习场景、模态和任务类型的 MMCL 基准。

未来方向

多模态连续学习已成为一个活跃且前景广阔的研究主题。以下是几个未来进一步探索和研究的方向。

提高模态的数量与质量：表 3 中显示，只有少数 MMCL 方法关注视觉和语言以外的模态。因此，在整合更多模态方面还有巨大的研究空间。此外，模态并不限于表 3 中列出的内容，还可能包括生物传感器、基因组学等，从而增强对新兴挑战的支持，尤其是在科学研究中的人工智能应用（AI for science）。
更好的模态交互策略：许多现有的 MMCL 方法仅仅在网络架构中融合模态，而没有深入理解或分析它们在训练中的相互影响。因此，测量这种跨模态影响将是一个有趣且有前景的研究方向，以实现更细粒度的多模态交互。
参数高效微调的 MMCL 方法：参数高效微调（PEFT）方法提供了一种有效的解决方案，以优化训练成本。虽然基于提示的方法是参数高效的，但在表 2 中可以看到，其他类别中仅有 MoE-Adapters4CL 利用了 PEFT 方法。因此，考虑到近年来涌现出众多 PEFT 方法，将它们应用于减少 MMCL 方法的训练成本是一个值得探索的方向。此外，除了简单地应用现有 PEFT 方法，一个有前景的方向是为 MMCL 设置提出新的 PEFT 方法，并将其与其他 MMCL 技术良好集成。
更好的预训练知识维护：由于许多 MMCL 方法使用了强大的多模态预训练模型，因此在训练过程中自然希望能够记住其预训练知识。遗忘预训练知识可能会显著影响未来任务性能。
基于提示的 MMCL 方法：基于提示的 MMCL 方法能有效应对挑战 3：高计算成本，以及挑战 4：预训练零样本能力退化。然而，如表 2 所示，基于提示的 MMCL 方法目前是最少的一类。鉴于基于提示的方法仍处于起步阶段，因此进一步研究和发展的潜力巨大。
可信赖的多模态连续学习：随着人们越来越关注隐私以及政府实施更多相关法规，对可信赖模型的需求正在上升。诸如联邦学习（FL）等技术可以被用于使服务器模型在不共享原始数据的情况下学习所有客户端的数据知识。随着众多联邦连续学习（FCL）方法的发展，将 FCL 方法扩展到 MMCL 将是一个有前景的发展方向，从而增强 MMCL 模型的可信赖性。

总结

本文呈现了一份最新的多模态连续学习（MMCL）综述，提供了 MMCL 方法的结构化分类、基本背景知识、数据集和基准的总结。作者将现有的 MMCL 工作分为四类，即基于正则化、基于架构、基于重放和基于提示的方法，还为所有类别提供了代表性的架构示意图。此外，本文讨论了在这一快速发展的领域中有前景的未来研究方向。希望 MMCL 的发展进一步增强模型使其展现出更多人类的能力。这种增强包括在输入层面处理多模态的能力以及在任务层面获取多样化技能，从而使人们更接近于在这个多模态和动态世界中实现通用智能的目标。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650942867&idx=4&sn=88d09877f58a9628b0121d79354d2cec

机器之心

专业的人工智能媒体和产业服务平台

最新文章

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉