ECCV 2024 | R-Adapter：零样本模型微调新突破，提升鲁棒性与泛化能力

教育 2024-09-01 09:00 福建

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

大规模图像-文本预训练模型实现了零样本分类，并在不同数据分布下提供了一致的准确性。然而，这些模型在下游任务中通常需要微调优化，这会降低对于超出分布范围的数据的泛化能力，并需要大量的计算资源。论文提出新颖的Robust Adapter（R-Adapter），可以在微调零样本模型用于下游任务的同时解决这两个问题。该方法将轻量级模块集成到预训练模型中，并采用新颖的自我集成技术以提高超出分布范围的稳健性，并大幅减少存储开销。此外，论文提出了针对视觉-语言下游任务设计的MPM-NCE损失，确保多个图像-文本对的精确对齐和具有区分性的特征学习。
来源：晓飞的算法工程笔记公众号

论文: Efficient and Versatile Robust Fine-Tuning of Zero-shot Models

论文地址：https://www.arxiv.org/abs/2408.05749
论文代码：http://cvlab.postech.ac.kr/research/R-Adapter

Introduction

大规模联合图像和文本数据预训练模型的出现在计算机视觉领域引起了范式转变。通过对大量图像-文本对的嵌入进行对齐，这些模型实现了零样本推断，并展现出在不同数据分布下广泛泛化的显著能力。尽管它们在零样本情境下表现出色，但它们无法与监督学习模型相媲美，需要进行微调以发挥其全部能力。然而，传统的全面微调会产生两个主要挑战：1）全面微调损害了模型对于超出分布范围（OOD）数据的泛化能力，而这对于数据变异性不可预测的实际应用至关重要。2）它需要大量的计算资源、内存和存储，而随着大规模预训练模型的不断增大，这是不切实际的。

最近，针对这些挑战提出了几种微调方法。稳健微调的目标是在微调零样本模型的同时保持对OOD的鲁棒性，而参数高效微调（PEFT）仅更新一小部分参数，同时保持预训练参数的冻结状态。然而，每种方法只解决其中一个挑战，同时在另一个挑战上仍然存在不足。如图1所示，现有的稳健微调方法仍然需要微调整个模型，导致训练代价高昂。此外，它们仅针对分类任务，因此通常仅训练图像编码器，从模型中排除了零样本推断能力。另一方面，与稳健微调相比，PEFT在分布偏移下的性能显著滞后。它们的关键缺点凸显了需要新的微调方法，同时解决稳健微调和PEFT分别应对的两个挑战。

本文提出了一种名为稳健适配器（R-Adapter）的新型微调方法，旨在提高PEFT的稳健性，并增强稳健微调的效率。在适配器微调方法的基础上向预训练模型添加额外的轻量级模块，R-Adapter引入了新颖的自我集成策略，以增强OOD的稳健性。

受到在权重空间中平均多个模型时观察到的稳健性增益的启发，通过一种独特的方式在单个模型内实现这种策略。这种方法在任务特定性能和针对分布偏移的稳健性之间取得了良好的平衡，同时显著降低了存储成本。具体而言，R-Adapter通过三种自我集成技术实现这一目标。它随机丢弃适配器模块，从而动态生成并集成不同子网络，以各种配置组合适配器和预训练层。此外，累积适配器权重以形成一个时间集成，捕捉整个学习过程中产生的所有模型。此外，通过重新缩放适配器的权重，并通过重新参数化将其整合到预训练层中，论文实现了在没有两个单独模型的情况下，在预训练和微调模型的权重之间实现无缝的线性插值。

此外，论文提出了一种名为Multi-Positive Margin NCE（MPM-NCE）损失函数，专为在视觉-语言下游任务上进行有效微调而设计。这些任务通常涉及复杂的关系，其中多个图像可以对应于相同的文本，反之亦然。与传统的对比损失（例如InfoNCE）不同，后者接受单一正样本对，并因此经常导致这些关系中的语义不匹配，MPM-NCE考虑了多个正样本对，从而更精确地对齐跨各种图像和文本对。此外，MPM-NCE引入了一个角度边距以惩罚负样本对，使模型能够学习对下游任务至关重要的高度区分的特征。因此，所提出的损失函数显著改善了任务特定性能，在ID和OOD环境下都带来了益处。

论文的方法在微调后实现了零样本推理，在图像分类任务之外扩展了其适用性范围，适用于广泛的应用领域。为了展示其多功能性，论文提出了一个新的用于稳健微调的评估基准，包括五个任务：三种情景下的图像分类任务、跨模态检索和开放词汇分割。大量实验证明，与现有的稳健微调和PEFT方法相比，论文的方法在分布转移条件下表现出卓越性能，同时使用的参数更少。

本文的主要贡献有四点：

提出了一个高效且多功能的稳健微调框架，融合了PEFT和稳健微调的优势，这是第一个兼具两者优势的方法。
提出了R-Adapter，采用自集成技术，借助单个带有适配器的模型实现权重空间集成。能够在减少存储成本的同时增强鲁棒性，因为不需要多个模型。
开发了适用于微调的MPM-NCE损失，利用多个正样本对和引入角度间隔，确保了多个图像-文本对的精确对齐和具有区分性的特征学习。
首次将稳健微调的基准拓展到图像分类之外的任务，包括跨模态检索和开放词汇分割，从而允许评估其广泛适用性。论文的方法在各种任务中取得了最先进的性能，仅微调了13%的CLIP编码器参数。

Proposed Method

Preliminary

CLIP Encoders

CLIP由两个编码器组成，分别用于从图像和文本中提取特征。每个编码器由一系列Transformer层组成，每个层包括多头注意力（MHA）、层归一化（LN）和前馈神经网络（FFN）。具体而言，第层Transformer层的公式如下：

MHA包括对查询、键和值进行头自注意力操作，通过对输入进行独立的线性投影来实现，其公式为:

其中表示拼接，设为。，，和是线性投影矩阵。FFN由两个线性层和一个非线性层组成：

其中 , , , 和分别是线性投影的权重和偏置；表示GELU函数。

Contrastive Learning

CLIP编码器被训练用于预测哪些文本描述与给定的一组图像匹配，反之亦然。这通过使用InfoNCE损失来进行对比学习来实现，该损失迫使图像嵌入和其对应的文本嵌入彼此靠近，并远离批次中的其他文本嵌入。设和分别是图像和文本的CLIP编码器。给定一个批次包含个图像-文本对，损失函数定义为:

其中 , ，表示一个可学习的温度参数。

Problem Setup

论文的目标是在保留其固有的离群分布泛化能力的同时，高效地对视觉-语言预训练模型进行各种下游任务的微调。虽然大多数现有的鲁棒微调方法局限于分类任务，但论文将范围扩大到为各种下游任务，如图像分类、跨模态检索和开放词汇分割等，提供鲁棒微调模型。

给定一个图像-文本预训练模型，目标是使用一个面向目标下游任务的内分布（ID）训练数据集对其进行适应，其中表示一个图像，是对应于该图像的文本描述。同时，旨在提高模型在一个离群分布（OOD）测试数据集上的性能。内分布和离群分布数据集和分别从不同概率分布和中采样，当时即为表现出分布转移。在分类任务中，表示目标类的文本描述，通过从一组预定义模板中进行采样构建（例如，“一张{class}的照片”）。对于其他视觉-语言任务，可能是与图像相关联的标题之一。

Robust Adapter (R-Adapter)

为了实现高效且鲁棒的微调，论文引入了基于PEFT框架的R-Adapter。PEFT框架在微调少量附加的可学习参数的同时冻结预训练模型，但在训练中对该框架的朴素应用可能会导致对内分布数据的显著偏向（参见表2）。受到集成增强在各种分布下的泛化能力的启发，R-Adapter设计了三种新颖的自集成策略，以实现鲁棒微调而不在训练和推理期间增加计算负载。

Design of R-Adapter

R-Adapter建立在适配器微调框架之上，在该框架中向预训练模型添加了轻量级模块。具体而言，R-Adapter中的适配器模块采用了Houlsby适配器的简化版本，去除了非线性层和偏置。该模块被构建为一个残差块，由以下权重矩阵组成：

其中，表示预训练块的输出，是论文适配器的权重矩阵。对于全样本学习，保持的满秩结构以保留足够的容量。在少样本学习中，可以通过将分解为低秩矩阵的乘积来采用瓶颈结构，其中，，且秩。这种分解避免了过参数化，并显著减少了参数数目和计算量。

在图像和文本编码器的每个Transformer层中部署适配器，放置在MHA（Multi-Head Attention）和FFN（Feed-Forward Network）层之后，如图2所示。

由于适配器之前没有非线性结构，可以通过将其与最接近的预训练层集成进行重参数化，从而在推理过程中消除适配器的额外计算开销。用表示适配器之前的预训练层的权重，可以是来自MHA的或者FFN中的，相应的偏置是FFN中的。给定预训练层的输入，那么重新参数化的过程如下进行：

其中，是单位矩阵，，。

Dynamic Ensemble by Adapter Dropping

为了增强R-Adapter的OOD鲁棒性，加入适配器丢弃的动态集成技术。在训练过程中，适配器模块以以下方式被随机停用：

其中，是从中抽取的独立变量，是适配器丢弃的概率。

与用于特征稀疏性的dropout或用于模型深度减少的drop-path不同，该技术独特地专注于在保持预训练特征的同时随机禁用适配器层。适配器丢弃不适用于推理阶段，这样可以创建一个由预训练层和适配器层组合而成的子网络集合。这种策略能够同时保留预训练知识和微调知识的动态集成多模型，从而在ID和OOD数据上提升性能。

Temporal Ensemble by Accumulation

通过利用适配器权重的历史累积，引入一个时间集成策略来提高模型的鲁棒性。在训练过程中，通过对多次迭代中的权重进行平均，集成技术捕捉到对特征空间的更广泛了解。累积适配器的权重则通过指数移动平均进行更新：

其中，是控制动量更新速率的系数。这种方法在内存使用方面非常高效，因为只有适配器的参数进行了动量更新，而不是整个模型的参数。在推理阶段，利用累积的权重来计算重参数化权重和偏置。

Weight-space Ensemble by Re-scaling

最后，引入一种通过重新调整参数实现预训练层和微调层之间的权重空间集成的策略。传统的权重空间集成（WiSE-FT）在原始预训练参数和微调参数之间进行线性插值，因此需要存储两个独立的模型。相比之下，论文采用重参数化的权重作为微调层的权重，从而进化了这个概念。我们在推理时重新调整适配器的权重并对其重参数化，将权重空间集成简化为单一模型内的实现。该过程可以表达如下：

这里，表示集成的权重，是一个重调整系数。系数充当插值因子，调整原始预训练权重与微调层调整权重之间的平衡。这种技术不仅可以提高在分布转移下的准确性，也能在ID数据上保持高性能。关键是，与WiSE-FT不同，该方法不需要在存储中维护两个单独的完整模型，因此更有效地促进了更节省存储空间的权重空间集成。

MPM-NCE Loss for Downstream Task

为了增强下游任务的学习能力，使用与任务特征密切对齐的损失函数至关重要。视觉-语言任务通常涉及多个模态之间的对应关系。例如，在分类任务中，对同一类别使用不同的文本模板可能导致多个文本描述与单个图像匹配，反之亦然。这种情况在涉及图像和标题的跨模态检索任务中也会发生。当将零样本模型调整到新任务时，一种常见方法是使用预训练中使用的InfoNCE损失。然而，对于存在多个正样本的任务，该损失并不理想，因为它只考虑了单个正样本对。此外，InfoNCE学习了正负样本之间的顺序，这可能不会为下游任务产生足够有区分力的特征。

为了解决这些限制，论文提出了MPM-NCE损失，旨在适应这些任务的多正样本性质，同时增强所学嵌入的区分能力。这个损失函数有两个关键改进。首先，使用软标签为多个正样本对分配相等的概率，公式如下：

其中表示样本和之间的正关系，是包括自身在内的样本的正样本集合，是一种平滑标签噪声。这种软标签确保在下游任务中正确对齐多个图像-文本对。此外，软标签还可以包含，通过对标签引入小的扰动来降低过拟合风险。

第二个改进是对负样本对应用边界。这个边界通过确保负样本对不仅是不同的，而且还要被一定的阈值分开，增强了所学特征的区分度。融合了这些改进，MPM-NCE公式如下：

其中温度被设为常数值0.01，对于正关系为0，对于其他情况为。因此，MPM-NCE损失鼓励模型正确对齐多个图像-文本对，并学习具有区分度的特征，从而在ID和OOD下显著提高性能。

Experiments

From 微信公众号【晓飞的算法工程笔记】

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

http://mp.weixin.qq.com/s?__biz=MzIzNzU4OTAxMQ==&mid=2247531262&idx=1&sn=ae72ccc89e3d711a4d101caabaefd0bb

FightingCV

一个专注于解析计算机视觉、多模态方向前沿论文，解答科研问题，分享科研时事的公众号！

最新文章

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

SpaceX再创历史，人类首次商业太空行走成就达成！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

mPLUG-DocOwl2: OCR-free多页文档理解新SOTA，单页视觉token仅324！

MIT提出了全新AI架构，霸榜各大检测、分割、跟踪、大模型榜单！

离谱，深圳某公司重新定义8小时工作制！

英伟达下一代GPU泄露！RTX 5080比4090提升10%，5090功耗高达600W

RepControlNet：一种新的扩散模型推理加速技术！

斯坦福利用视觉表示法则优化多模态语言模型，计算成本降低 99.7% ！

高校大厂首次用LLM解决时序传统问题

MoE再下一城！港大提出AnyGraph：首次开启「图大模型」Scaling Law之路

CVPR 2025投稿须知

ECCV 2024 | R-Adapter：零样本模型微调新突破，提升鲁棒性与泛化能力

涂鸦、边界框和点通吃，SAM-COD在伪装目标检测中的应用！

商汤营收大涨21%，六成来自生成式AI

Llama3.1根本卖不动！业内人士：开源模型成本反而更高

计算机视觉大佬推荐的深度学习书

CVPR'24满分论文，首个可变形的3D高斯动态重建

ECCV 2024 ｜ 3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA

语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

人民日报，单篇报道特色名校

大学教授连开2枪杀妻，本人：系误杀！

一文看懂Mamba，Transformer最强竞争者

国务院任免！她卸任教育部副部长

NeurIPS高分论文，多模态融合！

ECCV 2024 Oral 满分论文！SpikeYOLO：高性能低能耗目标检测网络

为什么最近多模态大模型工作中用Q-Former结构的变少了？

迈向多图长序列理解，阿里开源多模态大模型 mPLUG-Owl3

最强大模型一夜封神！

首个像人类一样思考的网络！Nature子刊：AI模拟人类感知决策

TII发布首个纯无注意力大模型，非Transformer架构站起来了

无痛涨点的82个即插即用缝合模块

清华光学AI登Nature！物理神经网络，反向传播不需要了

正义还是败类？探究奥特曼角色争议背后的马库斯道德危机！

李政道将安葬于苏州

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

ECCV 2024 | 2000 FPS！使用2D GS进行图像表示和压缩！

李沐回归B站详解Llama-3.1论文！

YOLO魔改发论文！11个即插即用的实战项目

大学教师被举报家暴、性骚扰女学生，校方回应

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住了

ChatGPT版「Her」被玩疯：哭着读诗，中文表现也很亮

ChatGPT版“Her”突然开放，多模态赢麻了！

Meta「分割一切」进化2.0！一键跟踪运动物体，代码权重数据集全开源，网友：真正的OpenAI

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

最新开源的Transformer压缩方法，让模型超级高效！

Llama 3.1磁力链提前泄露！开源模型王座一夜易主，GPT-4o被超越

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ECCV 2024 | R-Adapter：零样本模型微调新突破，提升鲁棒性与泛化能力

Introduction

Proposed Method

Preliminary

CLIP Encoders

Contrastive Learning

Problem Setup

Robust Adapter (R-Adapter)

Design of R-Adapter

Dynamic Ensemble by Adapter Dropping

Temporal Ensemble by Accumulation

Weight-space Ensemble by Re-scaling

MPM-NCE Loss for Downstream Task

Experiments