点击蓝字
关注我们
关注并星标
从此不迷路
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
论文标题:HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning
论文链接:https://arxiv.org/pdf/2404.19245
代码链接:https://github.com/Clin0212/HydraLoRA
计算机视觉研究院专栏
Column of Computer Vision Institute
这篇论文刚刚中稿 NeurIPS Oral(64/15671 =0.4%),作者分别来自澳门大学、德克萨斯大学奥斯汀分校以及剑桥大学。其中,第一作者田春霖是澳门大学计算机系的三年级博士生,研究方向涉及 MLSys 和高效大语言模型。师从栗力、须成忠教授。
卓越的性能表现:HydraLoRA 在多个基准测试任务中均优于现有的 PEFT 方法,尤其在处理多任务和复杂领域时表现突出。它有效解决了传统 LoRA 在处理内在组件冲突时的劣势,在保持参数效率的同时,提供了更强大的任务处理能力。
内在组件的分离能力:通过引入多个 B 矩阵,HydraLoRA 能够有效区分数据中的内在组件,避免不同任务间的干扰。共享的 A 矩阵捕捉任务间的共性,不同的 B 矩阵处理任务的多样性,从而在多样化任务中实现更佳性能。显著提升了参数的使用效率。这种架构通过减少冗余,提升了计算和存储效率,尤其在大模型微调场景中表现突出。
可扩展性与灵活性:HydraLoRA 通过 Mixture-of-Experts (MoE) 路由器动态合并多个 B 矩阵,不仅提高了任务适应性,还能在不同任务间自如切换。该架构使模型在推理阶段灵活应对不同任务需求,在复杂多任务领域中展示了出色的扩展能力。
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
往期推荐
🔗