推荐阅读｜大语言模型中的优化问题(LoRA相关算法)

文摘 2024-05-07 22:17 北京

一、LoRA

在大语言模型中，参数矩阵的维度往往可以达到百亿甚至千亿，如果从头开始训练将会特别的消耗时间和资源。因此往往大家都会预先训练好一组初始参数，然后针对不同的任务进行微调，即。对于微调量，通常假设是一个低秩矩阵，即，，，，实际结果中也往往能得到很好的效果[2]，如图1所示。因此我们针对特定任务只需要重新训练矩阵即可，它们的维度也远远小于原矩阵的维度。初始化时设置是随机生成的矩阵（高斯分布均值为0, 标准差为），为零矩阵可以保证初始微调量为0。

而在推理过程中，推理输出也可以表示成

图1：LoRA算法原理图[1]

下图是截取原文中的部分实验结果。相比于fine-tuning (FT)的方法，LoRA算法只需要很少的训练模型参数就可以得到相似的效果。

图2：LoRA实验结果[1]

二、LoRA性能加速

2.1 LoRA+

LoRA给两个低秩适配器矩阵设置了相同的学习率。在LoRA+[3]中，研究人员为适配器矩阵A和B设置不同的学习率，通过对学习率进行精细调整，确保在大模型宽度下，微调过程可以有效地进行特征学习。文中实验说明在相同的计算成本下，LoRA+能获得1% - 2%的性能提高和2倍的计算加速。

图3：LoRA和LoRA+算法比较[3]

2.2 QLoRA

LoRA成功地减少了所需要的模型的参数个数。除此之外，我们还需要注意模型的实际计算时间(包括训练和推理)也和使用的数据结构有紧密的关系。对于相同的运算，低精度(如FT4)的数据相比于高精度(FT32)的数据花费的时间要少很多。同时，存储高精度数据还需要更多的内存，对于大语言模型而言也是一笔很大的开销。

对于LoRA的计算公式

QLoRA的降精度操作具体如下：

可以看到，高维参数只使用低精度4 bit的FT4数据类型，只有和梯度有关的参数的计算用到相对高精度的BF16数据类型，而本身的维度远小于(低秩假设)。这样数据存储时使用FT4可以大大减少所需内存，而在需要计算时，我们将需要更新的部分的(例如1%的参数量)从FT4转化为高精度数据进行计算，这样只需要更新参数时候需要高精度数据，并且参数更新完后又变成低精度数据存储。

关于QLoRA方法，数据量化也分两层：

4比特量化(Quantization)

在对的量化过程中，首先要将参数归一化使其满足正态分布，即。通常会采用分块归一化，每一块会有对应的系数。

二次量化(Double Quantization)

对于每一个block都会一个系数，在计算的过程中我们可以使用高精度数据类型(FT32)，但是存储的时候我们也只需要使用低精度数据类型(FT8)就可以了。这样可以进一步减少所需要的内存空间。

基于LoRA算法还有很多改进的方法，感兴趣的同学可以参看[5]，列举了一些最新相关成果。

参考文献

[1] LoRA: Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Low-rank adaptation of large language models. International Conference on Learning Representations (ICLR), 2022

[2] Armen Aghajanyan, Luke Zettlemoyer, and Sonal Gupta. Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing

[3] Hayou, S., Ghosh, N., & Yu, B. (2024). LoRA+: Efficient Low Rank Adaptation of Large Models. arXiv preprint arXiv:2402.12354.

[4] Dettmers, Tim and Pagnoni, Artidoro and Holtzman, Ari and Zettlemoyer, Luke (2023). QLoRA: Efficient Finetuning of Quantized LLMs. arXiv preprint arXiv:2305.14314

[5] https://towardsdatascience.com/an-overview-of-the-lora-family-515d81134725

最新文章

锂离子电池储能系统数字孪生设计方法

推荐阅读 | 整合按需出行与城市公交网络的战略规划

将因果关系分解为协同、独特和冗余

推荐阅读 | 经典论文解读：X-Y区间与改进的(s, S)库存策略

一种跨域集群对抗的动态弹性评价方法

推荐阅读 | 带飞行助手的旅行商问题：无人机协助的配送优化建模及求解（附代码）

基于 MResNet-LSTM 的滚动轴承故障诊断

空间挠性作动器的可靠性验证试验方法

推荐阅读 | 上门配送成本控制：如何通过激励机制优化成本？

组合加权包络谱:一种用于提取旋转机械特征频率的增强解调框架

推荐阅读| 旋转的秘密：相位移编码器破解目标检测中的边界之谜

基于多保真度深度神经网络的偶然不确定性量化

推荐阅读 | FeatAug-DETR：通过特征增强丰富DETRs的一对多匹配

乘积包络谱优化- Gram：一种用于滚动轴承故障诊断的增强包络分析

基于物理信息残差网络的滚动轴承故障诊断

学术辑览 | 机械轴承推送合集

推荐阅读 | 血液捐献者供应链管理策略：库存响应串联网络模型

学术辑览 | 锂离子电池推送合集

基于混合注意力的多小波系数融合滚动轴承剩余寿命预测方法

推荐阅读 | 疫苗供应链优化建模：综述与未来机遇

ReF-DDPM: 一种基于DDPM的滚动轴承故障诊断数据增强新方法

推荐阅读 | 互补产品供应链中的权利差异与定价智慧

基于物理信息与数据驱动的贝叶斯网络的锂离子电池事故风险分析

推荐阅读 | 不确定条件下旅行者路径选择的K阶均值偏差模型

基于深度隐变量状态空间模型的轴承退化预测

推荐阅读 | 论文的整体结构：文前部分、主文部分和文尾部分

一种全新滚动轴承局部缺陷扩展动态更新和实时映射的数字孪生模型

面向滚动轴承故障智能诊断的数字双驱动局部域自适应网络

无寿命标签下的RUL概率预测：一种融合贝叶斯深度学习和随机过程的方法

推荐阅读 | 一种时频谱幅值调制方法及其在滚动轴承故障诊断中的应用

CBAM增强残差卷积域自适应网络在跨机滚动轴承剩余使用寿命预测中的应用

推荐阅读 | 应用Benders分解方法解决多车生产路由问题

考虑量化的随机退化设备的剩余寿命预测

推荐阅读 | 按需、长期还是混合?共享平台上最优租赁模式的优化模型

锂电池多物理场-退化耦合模型的参数灵敏度分析

推荐阅读 | 联邦学习经典高被引论文《原型对比联邦学习-FedProc》

基于因果路径的层次图卷积注意力网络在复杂机电系统故障检测中的应用

推荐阅读 | 面对服务中断和客户服务要求的多式联运网络整合规划

考虑大规模电池储能热致事故的可再生能源系统可靠性评估

推荐阅读 | 机器学习求解大规模TSP/VRP方法归纳

用于预测和健康管理的类ChatGPT大型基础模型：综述和路线图

推荐阅读 | 训练数据平衡时模型的不公平现象该如何解释？

基于动态贝叶斯网络和数字孪生的水下控制模块可靠性分析

推荐阅读 | 联合选址和可修复库存的电车换电服务模型

用于锂电池参数识别的分类器辅助贝叶斯优化方法

推荐阅读｜大语言模型中的优化问题(LoRA相关算法)

考虑非线性能耗模型的多路电动公交线路调度优化

基于数据驱动与迁移堆叠的锂离子电池SOH估计方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉