研究团队
张晏:天津大学
冀中,庞彦伟:天津大学,上海人工智能实验室
韩军功:清华大学自动化系
李学龙:中国电信人工智能研究院
文章下载
Yan ZHANG, Zhong JI, Yanwei PANG, Jungong HAN & Xuelong LI. Modality-experts coordinated adaptation for large multimodal models. Sci China Inf Sci, 2024, 67(12): 220107, doi: 10.1007/s11432-024-4234-4
尽管多模态大模型在各种下游任务中展现出了卓越的迁移能力,然而,其规模的持续增长以及任务范围的不断扩大,巨大的计算和存储需求使得传统的全量微调(FFT)方法变得难以为继。为了解决这一挑战,研究者们开始探索更加高效的替代方法。例如,参数高效微调(PEFT)展现了在不同领域扩展基础模型的显著能力。尽管如此,目前的PEFT方法仍面临两个主要问题:第一,如何显著提升性能,使其接近甚至超越FFT?第二,如何使PEFT方法与现有的多模态大模型无缝、高效地适配并保持高度兼容?图1展示了传统FFT方法与现有PEFT方法的对比,并分析了各自的优劣。现有方法通常局限于单一领域或是特定任务场景,能够适配的多模态大模型很有限,并且在多模态任务中也无法达到在单模态任务中的表现。在跨模态领域,部分方法(如Cross-Modal-Adapter、UniAdapter)通过共享部分参数来提升性能,但这些方法通常要求图像和文本编码器具有相同的隐藏层数和隐藏层大小,这种特定要求并不适用于大多数LMM。如图2所示,在BLIP-2模型中,图像和文本编码器的隐藏层数与大小差异显著,无法直接共享参数。因此,这些方法在性能上难以达到预期,也无法灵活适配不同的多模态模型。为了解决上述问题,本文首先对LMM各个组件进行统一分类,旨在提供适配标准,并确保该标准能够兼容大多数LMM。例如,ViT模型中的多头自注意力(MSA)层只支持将视觉嵌入作为输入,并通过模态内交互学习输出嵌入;BLIP中的跨模态多头注意力层支持多模态嵌入作为输入,并通过模态间交互学习输出嵌入。因此,对LMMs的不同组成部分进行统一的分类是重要的前提。此外,不同模态的输入数据和不同结构应该具有各自的专家,使它们具有一定的相互协同作用。具体地,针对当前多模态模型在功能和结构上的复杂多样性及现有方法的两大局限性,本文提出了一种高效、轻量化且即插即用的参数适配方法——ModeX,如图3所示。
(1) 统一分类标准:对已有的LMMs的内部组件进行了统一分类,为适配方法建立了清晰的标准,提升了方法的兼容性。(2) 提出ModeX方法:设计了一种新颖的、轻量化的参数适配方法ModeX,可轻松适配多种LMMs,支持多模态下游任务的高效适配。(3) 协调不同专家模块:在ModeX中,针对不同类型的多头自注意力(MSA)和前馈网络(FFN)模块,提出了相应的适配方法,通过路由算法协调“模态特定专家”与“模态混合专家”。(4) 实验验证:在多种多模态任务上的大量实验证明,ModeX方法在性能上与现有的全量微调(FFT)和参数高效微调(PEFT)方法相当或更优,展现了卓越的零样本迁移能力。例如,在NLVR2任务上,ModeX仅通过12M可调参数即可达到84.06%的准确率。此外,ModeX在训练参数规模和训练时长上也表现出明显的高效性。本文在15个多模态下游任务和5个主流多模态大模型上对所提方法ModeX进行了验证,其中多模态下游任务包括经典的多模态任务,例如图文检索、视觉问答、视觉推理等;除此以外,还包括基于大语言模型的零样本多模态任务,例如科学问答、开放式视觉问答、OCR相关问答等。大量实验表明,ModeX能够无缝地适应不同的LMM,并且优于最先进的PEFT方法,甚至与全微调方法相比表现出优越的性能。图5展示了所提ModeX方法与目前主流PEFT方法的性能与可训练参数量的可视化结果,表10展示了性能与训练时间的对比结果。实验结果表明,所提出的ModeX方法优于其他方法,实现了性能和训练效率的最佳权衡。各个下游任务的实验结果如表2-6所示。