一、现有PEFT方法的局限与挑战
1. Adapter方法的限制
2. 提示调整方法的难点
训练难度大:需要设计合适的提示,训练过程较为复杂。
输入长度限制:这些方法往往占用了模型的输入空间,限制了模型可以处理的实际输入内容的长度。
3. 效率与质量难以兼得
4. 低秩本质维度的重要性
5. 微软提出LoRA方法
二、LoRA:小模型有大智慧 (2021)
1. LoRA核心技术揭秘
整体设计:LoRA在原始预训练语言模型旁增加一个附加的网络通路,通过两个低秩矩阵A和B的相乘来模拟本征秩(intrinsic rank)。输入和输出的维度均为d,与预训练模型层的维度相同。
低秩分解:A矩阵将输入的d维数据降维至r维(增量矩阵的本征秩),r远小于d(r << d)。矩阵计算从d x d变为d x r + r x d,大大减少了参数量和计算量。
回映射:B矩阵将这些r维数据再映射回d维,以保持与预训练模型其他部分的兼容性。