NeurIPS'24 | Pcb-Merging:无需训练的多任务模型合并方案

科技   2024-11-14 23:59   上海  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:晓飞的算法工程笔记

论文: Parameter Competition Balancing for Model Merging

  • 论文地址:https://arxiv.org/abs/2410.02396
  • 论文代码:https://github.com/duguodong7/pcb-merging

创新点


  • 重新审视了现有的模型合并方法,强调参数竞争意识的关键作用。
  • 提出了一种名为  的新方法,通过平衡参数竞争有效地调整参数系数。
  • 提出的方法在各种应用场景中稳定并提升了模型合并性能,无需额外训练。

内容概述


尽管对预训练模型进行微调已成为一种常见做法,但这些模型在其特定领域之外往往表现不佳。最近模型融合技术使得能够将多个经过不同任务微调的模型直接集成到一个模型中,集成模型具备多任务能力而无需在原始数据集上进行重新训练。然而,现有方法在解决任务之间潜在冲突和复杂相关性方面存在不足,特别是在参数级别调整中,造成在不同任务间有效平衡参数竞争的挑战。

论文提出了轻量级且无需训练的创新模型融合技术 Parameter Competition Balancing),通过调整每个参数的系数实现有效的模型融合。  采用内部平衡来评估各个任务中参数的重要性,并采用外部平衡来评估不同任务间的参数相似性。重要性分数较低的参数被舍弃,其余参数被重新缩放,以形成最终的融合模型。

论文在多种融合场景中评估了该方法,包括跨任务、跨领域和跨训练配置,以及领域外泛化。实验结果表明,该方法在多个模态、领域、模型大小、任务数量、微调形式以及大型语言模型中实现了显著的性能提升,超越了现有的模型融合方法。

PCB-Merging


最近的模型合并研究基于任务向量完成各种任务算术操作和模型合并。对于任务  ,任务向量  定义为通过从微调权重  中减去预训练权重  所得到的向量,即  ,用于专注每个任务特定模型微调阶段发生的变化。基于任务向量的多任务模型合并方法可以表达为  ,其中系数  表示合并任务向量  的重要性。这个概念简单而有效,显著优于简单的权重平均方案,即 

平衡参数竞争

PCB-Merging旨在调节每个任务和参数的缩放因子,实现任务内部和平衡任务之间的相互平衡。具体而言,使用参数竞争平衡(PCB)矩阵  来调整每个任务模型  中参数的规模,从而得到最终的融合模型,具体如下:

  • Intra-Balancing

首先,通过对任务向量的幅度应用非线性激活函数(即softmax)来实现self-awareness,强调重要参数,同时在一定程度上抑制冗余参数。

随着融合任务数量的增加,参数之间的竞争加剧。因此,使用任务数量  来调节冗余参数的抑制程度。

  • Inter-Balancing

接下来,使用cross-awareness来使一组任务内的参数能够与其他参数互动,从而解决任务之间潜在的冲突和复杂的相关性。

为了实现这一目标,计算不同任务向量中相同位置参数之间的相似度,使得每个参数能够基于来自其他任务的信息更新其分数。计算过程如下:

  • Drop and Rescale

得到  后,基于  构建一个掩码  以关注更重要的参数。具体而言,这个掩码  用于从  的  个元素中选择高分数元素。

定义掩码比例为  ,其中  。掩码  可以通过以下公式推导得出:

重要性分数定义为  ,使用掩码平衡矩阵的分数来加权每个任务向量中每个参数的重要性,得到最终合并的任务向量 

最终合并的任务向量  可以进一步按比例调整其幅度,并将其与初始参数值结合以生成融合后的模型参数  ,表示为  ,其中  是一个缩放超参数。

系数搜索

先前的研究表明,基于任务向量的模型合并方法对合并系数  非常敏感。即便选取了合适的统一  ,要进一步提高融合性能仍然需要对每个任务向量进行合并系数的网格搜索。这个过程复杂且繁琐,特别是在处理大量任务时。

论文采用智能优化算法来搜索混合系数,旨在比使用统一系数获得更大的改进。这一优化过程旨在寻找最佳的集合  ,以增强验证准确性,最终目标是最大化合并模型的验证准确性。

在大多数实验设置中,主要使用协方差矩阵自适应进化策略(CMA-ES)。作为一种基于概率的种群优化算法,CMA-ES动态调整由协方差矩阵定义的搜索分布。它在每次迭代中系统地更新该分布的均值和协方差,以学习并利用搜索空间的潜在结构,从而提高优化效率。

主要结果


何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!


扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请赞和在看

CVer
一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。
 最新文章