首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
LoRA、完全微调到底有何不同?MIT 21页论文讲明白了
科技
2024-11-11 12:25
北京
机器之心报道
编辑:陈陈、小舟
本文旨在了解两种微调大型语言模型方法之间的差异:完全微调和低秩自适应 (LoRA)。这两种方法都用于将预训练模型适应特定的下游任务,但它们却有所不同。
微调(Fine-tuning)是将经过预训练的大语言模型应用于下游任务的关键范例。最近,低秩自适应 (LoRA) 等方法已被证明可以在各种任务上达到完全微调模型的性能,同时可训练参数的数量却大大减少。
这就提出一个问题,即它们学到的解决方案真的等效吗?
带着这一疑问,来自 MIT 的研究者在论文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中进行了深入探讨。
论文地址:https://arxiv.org/pdf/2410.21228v1
作者通过分析预训练模型权重矩阵的光谱特性来研究不同的微调方法如何改变模型。
研究发现,完全微调与 LoRA 产生的权重矩阵奇异值分解结构有显著不同,并且经过微调后的模型在面对超出适应任务分布的测试时也显示出不同的泛化行为。
特别是,LoRA 训练的权重矩阵中出现了称为「侵入维度(intruder dimensions)」的新的高秩奇异向量,而在完全微调中则不会出现这种情况。
这些结果表明,即使在微调分布上表现相同,但使用 LoRA 和完全微调更新的模型访问参数空间的不同部分。
作者通过研究 LoRA 微调模型中出现侵入维度的原因、它们为什么不受欢迎,以及如何最小化这些效果来展开研究。
最后,作者给出了以下几点观察:
首先,LoRA 和完全微调在结构上产生不同的参数更新,这种差异由侵入维度的存在产生的。这些侵入维度是奇异向量,具有较大的奇异值,并且与预训练权重矩阵中的奇异向量近似正交。相比之下,完全微调模型在光谱上与预训练模型保持相似,不包含侵入维度。
其次, 从行为上看,与完全微调相比,具有侵入维度的 LoRA 微调模型会忘记更多的预训练分布,并且表现出较差的稳健连续学习能力:具有侵入维度的 LoRA 微调模型在适应任务分布之外不如完全微调模型,尽管分布准确度相当。
最后, 即使在目标任务上低秩 LoRA 表现良好,但更高秩的参数化可能仍然是可取的。低秩 LoRA(r ≤ 8)适合下游任务分布,完全微调和高秩 LoRA(r = 64)让模型泛化能力更强、自适应能力更加鲁棒。然而,为了利用更高的秩,LoRA 更新模型必须是秩稳定的。
沃顿商学院副教授 Ethan Mollick 对此评论道:事实证明,使用 LoRA 定制通用 LLM(Apple 调优其设备内置模型的方式),对 LLM 的限制远大于微调,因为它们失去了一些泛化能力。原因是 LoRA 增加了不祥的侵入维度。
LORA 和完全微调模型的差异
本文采用神经网络参数的奇异值分解 SVD 来理解微调对预训练权值的变化。
特别是,本文测量了用 LoRA 微调过的权重矩阵中的奇异向量或完全微调过的权重矩阵中奇异向量映射到预训练权重中的奇异向量的程度,使用它们的余弦相似性。这些关系如图 1 和图 3 所示,颜色表示预训练和微调奇异向量之间的余弦相似度。
图 2 (b) 中观察到,LoRA 和完全微调的奇异向量与预训练奇异向量的相似度非常不同:与完全微调相比,使用 LoRA 微调的模型的奇异向量与预训练奇异向量的平均余弦相似度似乎要低得多。
图 2 (b) 中左下角有一个唯一的红点,作者将这些新维度命名为侵入维度,其正式定义如下:
LoRA 微调模型包含高秩侵入维度,而完全微调的模型则不包含。为了量化特定权重矩阵的侵入维度集的大小,作者使用图 4 所示的算法。
即使在 LoRA 微调模型学习效果不如完全微调的任务中,侵入维度也存在。
观察图 5b、5c 和 5d,我们可以清楚地看到,即使 LoRA 的 r=256,高秩奇异向量集中仍出现侵入维度。重要的是,当 r=2048 时没有侵入维度,而是展示了与完全微调非常相似的曲线。这支持了早先的发现:随着秩增加超过一个阈值,侵入维度会消失,LoRA 开始趋向于与完全微调相似。
即使使用满秩矩阵执行 LoRA,完全微调更新也比 LoRA 更新具有更高的有效秩。如图 6 所示,可以观察到完全微调解决方案的有效秩明显高于通过 LoRA 学习到的解决方案的有效秩,即使 LoRA 具有更高的秩。
LORA 和完全微调之间的行为差异
在较低秩,LoRA 在持续学习过程中的适应能力较差,会忘记更多之前的任务。该研究在多个任务上按顺序训练 RoBERTa,并测量学习新任务时性能的变化程度。
该研究使用与之前相同的训练方案、数据集,但在持续学习环境中使用以下数据集(按顺序)进行微调:MNLI、QQP、SST-2、SIQA、Winogrande、FEVER。在序列中某个数据集上进行训练后,将 LoRA 权重合并到模型中,并在下一个任务训练之前重新初始化,以便不受之前任务的影响。
在对特定任务进行训练后,该研究对所有任务进行测试,对于每个任务,在测试测试集之前分别重新训练分类头。这能够检查模型在这些任务上表现如何,而无需实际更改模型本身。
结果如图 8 所示。虽然 LoRA 最初与完全微调的性能相当,但较小的 LoRA 秩在持续学习过程中始终表现出更大的性能下降。特别是,对于前三个训练数据集,当 r = 1 时 LoRA 的性能下降到预训练基线以下。随着 LoRA 秩的提高,我们可以看到这种遗忘行为减少,并且更接近于完全微调,甚至在完成持续学习后在 MNLI 上的遗忘也更少。
整体情况是微妙的:虽然在某些情况下,LoRA 似乎忘记得较少,但对于某些任务(以及某些秩)事实上,LoRA 可能会忘记更多。
对于微调到等效测试精度的 LoRA 模型,可以看到一条 U 形曲线,该曲线标识了适合下游任务的最佳等级,同时最小程度的忘记了预训练分布。
图 9 报告了测量的伪损失分数。可以看到完全微调和 r = 768 时的 LoRA 之间呈现 U 形趋势。
相对于完全微调,低秩(r = 1)和高秩(r = 768)都会导致预训练分布的遗忘更大,而对于 r = 64,遗忘较少。也就是说:当 r = 1 时,使用 LoRA 微调的模型受到侵入维度的影响,并且似乎比没有侵入维度的 r = 64 有更多的遗忘。然而,当 r = 768 时,使用 LoRA 微调的模型也表现出更糟糕的遗忘,这表明由于过度参数化,它们对适应任务过度拟合。当 r = 8 和 r = 64 时,遗忘量少于完全微调。
了解更多内容,请参考原论文。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650942533&idx=2&sn=55fbb620c642b0e1aca79de930184a08
机器之心
专业的人工智能媒体和产业服务平台
最新文章
AI版周扒皮!打字速度慢、鼠标超30秒未动,就被AI「警告」,Karpathy下场评论
RTX 4090可跑、完全开源,最快视频生成模型问世,实测一言难尽
RL「误人」?LeCun 在技术路线上又有何战略摇摆?
智能体零样本解决未见过人类设计环境!全靠这个开放式物理RL环境空间
研究大模型门槛太高?不妨看看小模型SLM,知识点都在这
大半年过去,主流视频生成模型们超越Sora了吗?
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
如今的智能体,已经像人一样「浏览」视频了,国内就有
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
大模型不会推理,为什么也能有思路?有人把原理搞明白了
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
诺奖得主哈萨比斯新作登Nature,AlphaQubit解码出更可靠量子计算机
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
NeurIPS 2024 | 水印与高效推理如何两全其美?最新理论:这做不到
大模型代肝,自动刷《崩铁》升级材料,Claude操纵计算机还能这么用!
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
室温超导学术不端、多次Nature撤稿,这位印度裔学者被大学解雇
德国科学家激进观点:意识是虚拟的,存在于大脑构建的梦中
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
高通的自研架构芯片,正在整合生成式AI世界
发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型
大模型承重墙,去掉了就开始摆烂!苹果给出了「超级权重」
取人类与大模型之长,人机协作式智能软件开发框架AgileGen来了
面向代码语言模型的安全性研究全新进展,南大&NTU联合发布全面综述
精度与通用性不可兼得,北大华为理论证明低精度下scaling law难以实现
Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习
钻石冷却的GPU即将问世:温度能降20度,超频空间增加25%
可以实现零代码开发的OPPO智能体平台,到底强在哪?
继良品率低后,英伟达Blackwell又出过热问题,说好的明年初发货呢?
NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
对标o1,Kimi放出了最能打的国产模型
怎样保证你不是AGI独裁者?马斯克为何退出OpenAI?早期邮件公开了
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,照样能跑酷
扩展测试时计算是万能的吗?Scaling What成为关键
突破无规则稀疏计算边界,编译框架CROSS数倍提升模型性能
谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?
传说中Ilya Sutskever精选论文清单:AI领域40大论文完整版「破解」完成
首个自主机器学习AI工程师,刚问世就秒了OpenAI o1,Kaggle大师拿到饱
LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
这三家国内机构合作成果,斩获EMNLP 2024最佳论文奖,主办方:明年苏州见!
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉