LoRA（Low-Rank Adaptation）详解

教育 2024-08-22 11:30 四川

前言

随着最近大规模语言模型（Large Language Model，LLM）的出现，数十亿乃至千亿的参数量级成为了LLM的标配。如此参数量级的模型意味着传统的模型微调或者线性探测无法同时在训练效率和效果上同时满足开发者的要求。在之前我们介绍过PEFT（Parameter-Efficient Fine-Tuning）的重要的提示学习（Prompt Learning）和适配器学习（Adapter Learning）。提示学习的问题是模型的效果对提示的依赖非常严重，无论是离散提示还是连续提示，提示怎么有效的构造永远是提示学习的一个痛点。另外对于适配器学习来说，它们一般会向网络层中插入一些可学习的模块，同时这也带来了推理时间的增加。我们这里介绍一个近期训练LLM普遍使用的PEFT算法：LoRA（Low Rank Adaptation）[1]名思义，LoRA的核心思想是基于低秩的适配器进行优化。

1. 背景知识

1.1 什么是秩？

那么什么是秩呢？矩阵的秩(rank）分为行秩和列秩，行秩指的是矩阵的线性无关的行的个数，列秩同理。因为一个矩阵的行秩和列秩总是相等的，因此它们统一被叫做矩阵的秩。在机器学习中，我们通常使用一个矩阵来表示一个全连接层，但是这个全连接层往往是过参数化的，这意味着我们可以通过计算这个矩阵的秩来确定哪些特征是重要和相关的。例如在主成分分析（PCA）和奇异值分解（SVD）中，我们通过一个较低维度的表示来近似表示一个高维矩阵或数据集（图1）。换句话说，我们试图找到原始特征空间（或矩阵）中少数维度的（线性）组合，能够捕捉数据集中大部分的信息。

图1：PCA将三维特征压缩为二维图

1.2 过参数化

现在深度学习的参数动不动就有几百万，LLM的参数更是数十亿起步。许多工作[2]]已经表明，深度学习的矩阵往往是过参数化的（over-parametrized）。特征的内在维度（intrinsic dimension）指的是在深度学习中的真实或潜在的低维结构或信息的维度。它表示特征中存在的有效信息的维度，与特征的实际维度可能不同。事实上许多问题的内在维度比人们认为的要小的多，而对于某个数据集，内在维度在不同参数量级的模型上差距并不大。这个内在维度指的是我们解决这个问题实际上需要的参数空间的维度，我们对模型的微调通常调整的也是这些低秩的内在维度。这个结论说明了两个现象：

一旦我们找到了足够解决问题的参数空间，再增加这个参数空间的大小并不会显著提升模型的性能。
一个过参数的模型的参数空间是有压缩的空间的，这也就是LoRA的提出动机。

2. LoRA

2.1 计算原理

和其它串行的适配器算法不同，LoRA的做法是在LLM的某些矩阵（）旁插入一个和它并行的新的权值矩阵，但是因为模型的低秩性的存在，我们可以将拆分成降维矩阵和升维矩阵（图2），其中，从而实现了以极小的参数数量训练LLM。在训练时，我们将LLM的参数固定，只训练矩阵和。根据式(1)，在模型训练完成之后，我们可以直接将和加到原参数上，从而在推理时不会产生额外的推理时延。

图2：在训练时，LoRA在预训练权值旁插入了一组和它并行的低秩矩阵

在初始化时，使用高斯初始化，使用的零矩阵进行的初始化。因为通常是一个非常小的值（实验证明1，2，4，8的效果就非常好），所以LoRA在训练时引入的参数量是非常小的，因此它的训练也是非常高效的，也不会带来显著的显存增加。

LoRA要求或者其中之一必须使用零矩阵进行初始化，这样当数据第一次通过网络时，它和预训练的结果是一致的，这样便保证了模型在初始阶段便有一个不错的效果。苏剑林老师指出，这种一个全零，一个非全零的方式带来了不对称的问题[3]，其实我们也可以使用两个非全零矩阵进行初始化，但是需要事先将预训练权重减去初始化的值，即：。

LoRA实现起来非常简单，注意在下面代码的第17行有一个参数，它是一个缩放参数，通常是一个常数。通过设置有助于在变化 r 时减少重新调整超参数的需求。

input_dim = 768 # 例如，预训练模型的隐藏大小
output_dim = 768 # 例如，层的输出大小
rank = 8 # 低秩适应的等级'r'
W = ... # 来自预训练网络的权重，形状为 input_dim x output_dim
W_A = nn.Parameter(torch.empty(input_dim, rank)) # LoRA权重A
W_B = nn.Parameter(torch.empty(rank, output_dim)) # LoRA权重B
# 初始化LoRA权重
nn.init.kaiming_uniform_(W_A, a=math.sqrt(5))
nn.init.zeros_(W_B)

def regular_forward_matmul(x, W):
  h = x @ W
  return h

def lora_forward_matmul(x, W, W_A, W_B):
  h = x @ W # 常规矩阵乘法
  h += x @ (W_A @ W_B) * alpha # 使用缩放的LoRA权重
  return h

2.2 Transformer中的LoRA

理论上LoRA的思想可以应用到任何权值矩阵上，例如在Transformer的自注意机制中我们就有四个权值矩阵，，，，另外在Transformer的全连接中也有两个权值矩阵。关于LoRA在Transformer的作用位置，作者在自注意力层做了一组对照实验，实验结果如表1。从表1的实验结果中我们可以看出，如果只将LoRA作用到某个单一矩阵上，和的效果并不理想。而如果考虑两个矩阵，和的组合是一个不错的选择。而最好的方式是在所有的权值矩阵都加上LoRA，因为这样有利于模型捕捉到所有矩阵的关键信息。

表1：LoRA在不同的自注意力权值矩阵上的对照实验

2.3 秩的大小

关于秩的大小，作者也做了一组对照实验。从表2的实验结果可以看出，秩的值并不是越大越好，一般在 r=8 的时候便达到了最优解。而且1或者2这种很小的秩的表现也不差。证明了之前的权值矩阵可能拥有很小的内在秩的假设。

表2：LoRA在不同秩大小上的对照实验

通过对比 r=8 和 r=64 计算得到的矩阵经过SVD得到的两个右奇异矩阵的格拉斯曼距离相似性，作者得出 r=8 的特征包含在了 r=64 的其中的8个特征中，设置更大的奇异值反而引入了额外的噪声。

3. 总结

LoRA是PEFT非常重要的一个算法，也是笔者在训练LLM模型时实践出的一个效果非常好的算法。LoRA并不复杂但是设计的非常巧妙：首先LoRA并不会带来任何的推理时间的增加。其次LoRA并不会更改原始模型，而是只训练一个新增的额外参数，而且这个参数仅用来适配当前任务。但是这也意味着LoRA在训练多任务时需要多个不同的，多任务的学习对于LoRA来说比较困难，除非把它们当成同一个任务。

参考

Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021).
Li, Chunyuan, et al. "Measuring the intrinsic dimension of objective landscapes." arXiv preprint arXiv:1804.08838 (2018).
苏剑林 "梯度视角下的LoRA：简介、分析、猜测及推广" https://kexue.fm/archives/9590 (2023 Apr).
转自：https://zhuanlan.zhihu.com/p/663557294，作者：大师兄

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳👉 Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！

长按👇关注- 数据STUDIO -设为星标，干货速递

http://mp.weixin.qq.com/s?__biz=Mzk0OTI1OTQ2MQ==&mid=2247584874&idx=2&sn=93d6045648757810cb9aeb91db12da61

数据STUDIO

点击领取《Python学习手册》，后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享，内容以 Python 为核心语言，涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

最新文章

新式爬虫利器！太好用了！

我把 Python 中 zip() 函数玩出花了！

大模型，可以这么学！

Python Lambda 函数的 9 种玩法

再用 `print` 进行 Python调试，你就OUT啦！

李子柒回归! 用Python下载她的YouTube视频！

20 个 Python 非常实用的自动化脚本

码住！12 种生产级 Python 代码风格

大模型必备技能 -- RAG

72k！一个前景被严重低估的方向！

最强图解微型神经网络--多层感知器

看完再也不担心数据预处理中的数据泄露了

信息论、机器学习的核心概念：熵、KL散度、JS散度和Renyi散度的深度解析及应用

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

贝叶斯线性回归：概率与预测建模的融合

珊瑚书出版！从零开始，万行代码自制向量数据库

关于你不知道的 Python import 10 件事

Python 3.13 中的 7 个新类型特性

10万字、近20家企业BI智能分析决策合集

什么是莱文斯坦距离？

RAG系统的7个检索指标：信息检索任务准确性评估指南

YYDS！哈工大博士的PyTorch笔记火了！！

LLM预训练从0到1

后悔没早点知道 Python 异常的这 9 个事

用ChatGPT做数据分析与挖掘，爽！

一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

数据库简史

Ko！交叉验证还有陷阱？

Scikit-Learn 四个神级处理数据的技巧

OpenAI发布最强模型o1，大模型杀疯了！

GPT-4o vs Claude 3.5 哪个更牛？

《图解线性代数》中文版.PDF

算法修炼：深度遍历

PySimpleGUI：简化 Python 中的 GUI 开发

时间序列特征提取：从理论到Python代码实践

全球最大在线盗版影视网站关闭

启发式方法给K-Means选择较好的初始质心

数万字BI数字化转型案例.pdf免费下载

解释模型还只看特征重要性？那你就 OUT 咯！

Python 中 9 种关键文件类型你了解几个？

李沐重返母校上海交大，从LLM聊到个人生涯，这里是演讲全文

python中_init_.py 到底有啥用？

《黑神话：悟空》开发者被猎头疯抢，联创发声求放过：你们不缺人才，别搞我们

知乎：我不玩游戏，为什么《黑神话：悟空》这么火？

ChatGPT-4o已经进步成这样了吗？恐怖如斯！！！

LoRA（Low-Rank Adaptation）详解

Python 隐藏的高级技术

数据治理的六大核心准则，终于有人讲明白了

心脏病预测机器学习实战

数据治理的六大核心准则，终于有人讲明白了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

LoRA（Low-Rank Adaptation）详解

前言

1. 背景知识

1.1 什么是秩？

1.2 过参数化

2. LoRA

2.1 计算原理

2.2 Transformer中的LoRA

2.3 秩的大小

3. 总结

参考

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳👉 Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫 等，从入门到进阶！

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳👉 Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！