NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

科技 2024-10-21 14:00 江苏

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文标题：HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning
论文链接：https://arxiv.org/pdf/2404.19245
代码链接：https://github.com/Clin0212/HydraLoRA

计算机视觉研究院专栏

Column of Computer Vision Institute

这篇论文刚刚中稿 NeurIPS Oral（64/15671 =0.4%），作者分别来自澳门大学、德克萨斯大学奥斯汀分校以及剑桥大学。其中，第一作者田春霖是澳门大学计算机系的三年级博士生，研究方向涉及 MLSys 和高效大语言模型。师从栗力、须成忠教授。

大型语言模型（LLMs）虽然在适应新任务方面取得了长足进步，但它们仍面临着巨大的计算资源消耗，尤其在复杂领域的表现往往不尽如人意。为了缓解这一问题，业界提出了多种参数高效微调（PEFT）方法，例如 LoRA。然而，LoRA 在面对复杂数据集时，总是难以与全参数微调的表现相媲美，尤其当任务之间充满多样性时，效果更是大打折扣。

为了突破这一瓶颈，来自澳门大学、德克萨斯大学奥斯汀分校以及剑桥大学的研究者联合提出了一种全新的非对称 LoRA 架构 —— HydraLoRA。与传统 LoRA 需要对所有任务使用相同的参数结构不同，HydraLoRA 引入了共享的 A 矩阵和多个独立的 B 矩阵，分别处理不同的任务，从而避免任务间的干扰。九头蛇（Hydra）的每个头就像 LoRA 中的 B 矩阵一样，专注于各自的特定任务，而共享的 A 矩阵则像九头蛇的身体，统一管理和协调，确保高效和一致性。无需额外工具或人为干预，HydraLoRA 能够自主识别数据中的隐含特性，极大提升了任务适应性与性能表现。借助这种多头灵活应对的机制，HydraLoRA 实现了参数效率与模型性能的双重突破。

一句话总结：HydraLoRA 引入了一种非对称的参数微调架构，能够有效识别并适应数据中的 “内在组件”—— 即子领域或不同任务，这些组件可能难以被领域专家明确界定。其核心思想是通过共享的 A 矩阵和独立的 B 矩阵，最大限度地减少任务间的相互干扰，对每个内在组件进行优化调整。HydraLoRA 自主分配不同的 B 矩阵来捕捉特定任务的特性，而共享的 A 矩阵负责全局信息的整合，从而实现了高效的参数利用和性能提升。在复杂的多任务环境中，HydraLoRA 展现出了卓越的适应性，能够灵活处理各个内在组件，显著提升模型的准确性和效率，同时优化了资源消耗。

HydraLoRA 中 LoRA 架构变化示意图

研究动机与观察

LoRA 的现实困境：参数高效微调（PEFT）技术与全参数微调（FFT）之间存在显著的性能差距，尤其在处理更多样化或异质的训练语料库时，这一差距会进一步扩大。语料库的异质性意味着数据集的多样性，由于内容和风格各异，往往会引入干扰。PEFT 方法对此尤为敏感，在异构情况下性能损失更为严重。

LoRA 的分析观察 1：在参数数量相同的情况下，与其对整个域数据集使用单个 LoRA，不如部署多个较小的 LoRA 模块，每个模块专注于特定的下游任务。如下表所示，对于 LoRA (Split)，该研究将高秩的 LoRA 模块分解为多个较小且等效的低秩组件（r×n），其中 n 表示 LoRA 的数量，r 代表每个 LoRA 的秩。这表明任务之间的干扰可能对训练过程产生负面影响。

此外，研究团队认为这种干扰并不限于显式的多任务训练场景。在任何训练设置中，这种干扰都有可能发生，因为所有数据集本质上都包含多个隐含的内在组件，例如子领域或域内的任务，这些组件甚至连领域专家也未必能够明确区分。

LoRA 的分析观察 2：当多个 LoRA 模块在不同数据上独立训练时，不同头的矩阵 A 参数趋于一致，而矩阵 B 的参数则明显可区分。下图展示了 LoRA 模块的分解分析，通过 t-SNE 比较。各个头部的 A 矩阵参数高度相似，导致在图中重叠。相比之下，不同头部的 B 矩阵参数则明显不同，易于区分。研究团队认为这种不对称现象主要源于 A 矩阵和 B 矩阵的初始化方式不同。A 矩阵倾向于捕捉跨领域的共性，而 B 矩阵则适应领域特定的差异。A 和 B 矩阵之间的区别为提升参数效率和有效性提供了重要见解。从效率角度来看，该研究假设 A 矩阵的参数可以在多个头部之间共享，从而减少冗余。就有效性而言，由于不同头部的 B 矩阵参数分散，说明使用单一头部来适应多个领域的效果可能不如为每个领域使用独立头部更为有效，因为这能最大程度地减少领域之间的干扰。

非对称的架构：HydraLoRA

微调阶段：HydraLoRA 无需特定的领域知识即可自适应地识别并初始化 N 个内在组件。然后，它利用一个可训练的 MoE（Mixture of Experts）路由器，将每个内在组件视为专家，自动将训练样本划分到对应的组件进行微调。

推理阶段：HydraLoRA 通过训练完成的路由器，灵活且动态地合并多个 B 矩阵，以满足不同任务和数据的需求。这样的设计使得模型能够高效地适应多样化的应用场景，提升了整体性能和资源利用效率。

实验结果

1. 整体性能

该研究使用 HydraLoRA 在单任务（通用、医学、法律、数学和代码）和多任务（Flanv2）场景下进行了全面验证。

不同微调方案在单一领域多个基准中的性能比较：

在 BBH 基准上跨混合任务域的不同微调方案性能比较：

从以上两个表格可以得出以下结论：

卓越的性能表现：HydraLoRA 在多个基准测试任务中均优于现有的 PEFT 方法，尤其在处理多任务和复杂领域时表现突出。它有效解决了传统 LoRA 在处理内在组件冲突时的劣势，在保持参数效率的同时，提供了更强大的任务处理能力。
内在组件的分离能力：通过引入多个 B 矩阵，HydraLoRA 能够有效区分数据中的内在组件，避免不同任务间的干扰。共享的 A 矩阵捕捉任务间的共性，不同的 B 矩阵处理任务的多样性，从而在多样化任务中实现更佳性能。显著提升了参数的使用效率。这种架构通过减少冗余，提升了计算和存储效率，尤其在大模型微调场景中表现突出。
可扩展性与灵活性：HydraLoRA 通过 Mixture-of-Experts (MoE) 路由器动态合并多个 B 矩阵，不仅提高了任务适应性，还能在不同任务间自如切换。该架构使模型在推理阶段灵活应对不同任务需求，在复杂多任务领域中展示了出色的扩展能力。

2. 能耗和吞吐量分析

HydraLoRA 的 “Hydra” 结构如何提高系统效率，降低训练能耗和延迟？如下图所示，该研究从训练能耗和延迟两个方面评估了 HydraLoRA 的系统效率。结果显示，HydraLoRA 在系统效率上具有显著优势。首先，HydraLoRA 通过非对称结构优化了能耗和延迟，减少了训练过程中的能源消耗和时间延迟。

总结

1. 本文提出了一种新的参数高效微调架构，HydraLoRA，通过共享 A 矩阵和多个独立的 B 矩阵，减少任务间的干扰并提高性能；

2. 本文挑战了单一 LoRA 结构的局限性，提出了一个通过分离内在组件来优化微调过程的框架，能够自动识别数据中的不同子任务或子领域，进一步增强了模型的适应性；

3. 无论是处理单任务还是多任务，HydraLoRA 都在不同的领域中表现优异，同时显著减少了参数量和计算资源的消耗。更令人振奋的是，HydraLoRA 的非对称架构摆脱了手动干预的需求，通过自动化的方式优化了任务间的学习过程。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539022&idx=2&sn=a02d1c0161a582e90a292290b96d2c9a

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

Drone-YOLO：一种有效的无人机图像目标检测

26申博时间规划！别再按老套路来了，没用

“计算机视觉研究院”商务合作

一文读懂模型的可解释性（附代码）

首个快速知识蒸馏的视觉框架：ResNet50 80.1%精度，训练加速30%

劲爆！YOLOv6又快又准的目标检测框架开源啦（附源代码下载）

今天面试了一个字节女生，当场想给她offer

三区idea最后发了顶会！

特别小的目标检测识别（附论文下载）

基于Transformer的跨模态3D点云目标检测SOTA！易复现！

NeurIPS 2024 | 消除多对多问题，清华提出大规模细粒度视频片段标注新范式VERIFIED

“计算机视觉研究院”商务合作

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

不需要标注了？看自监督学习框架如何助力目标检测

RestoreDet：低分辨率图像中目标检测

目标检测创新：一种基于区域的半监督方法，部分标签即可（附原论文下载）

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

50K*16薪，进字节了！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

“计算机视觉研究院”商务合作

RestoreDet：低分辨率图像中目标检测

CVPR’24｜PanoOcc基于相机的3D全景分割最强SOTA！

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

245个目标检测开源项目合集，建议收藏！

“计算机视觉研究院”商务合作

完爆YOLO家族？新一代目标检测器又有新突破！

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

YOLO-SLD：一种改进的注意机制YOLO车牌检测

“计算机视觉研究院”商务合作

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉