如何高效微调大模型？五大前沿 PEFT 技术为你揭晓

文摘 2024-08-01 07:00 湖南

大模型的微调一直是一个复杂而资源密集的任务。然而，近年来出现了一些高效的微调技术（PEFT），使得这一过程变得更加简便和高效。本文将详细介绍几种主要的 PEFT 技术，包括 Adapter Tuning、Prefix Tuning、Prompt Tuning、P-Tuning v1 和 P-Tuning v2。

一、Adapter Tuning ：开启大模型 PEFT (2019)

Adapter Tuning 是一种在 2019 年提出的创新微调技术，旨在通过添加额外的适配层来提高模型的微调效率。

Adapter 核心技术解读：Adapter 嵌入 Transformer 网络

在两个FNN层后增加 Adapter 层：Adapter 层被嵌入在 Transformer 网络的两个 FNN 层之间，通过增加额外的层来增强模型的表现。这一方法通过在原有网络结构中引入适配层，使得模型在特定任务上的微调变得更加高效。
Adapter 内部学习降维后特征，减少参数：Adapter 层通过学习降维后的特征，有效地减少了参数数量。这种降维方法不仅能保留原有特征的关键信息，还能显著降低计算复杂度，从而提升模型的运行效率。
使用skip-connection，最差退化为 identity：通过使用 skip-connection 技术，即使在最差情况下，Adapter 层也可以退化为 identity，从而保持模型的稳定性。Skip-connection 确保了信息能够无阻碍地通过不同层，从而提高了模型的稳健性和可复用性。
提升微调效率和稳定性，可复用性增强：Adapter Tuning 提升了微调效率和稳定性，同时增强了模型的可复用性，使得在不同任务间切换更加便捷。这一技术不仅减少了对新数据的依赖，还提高了适应新任务的能力。

二、Prefix Tuning ：自动化构造 Prompts (2021)

Prefix Tuning 是在 2021 年提出的一种方法，通过在预训练模型前添加前缀模块来实现高效微调。

Prefix Tuning 核心技术解读：Prefix 嵌入 Transformer 网络

在预训练 Transformer 前增加 Prefix 模块：Prefix Tuning 方法通过在预训练的 Transformer 模型前增加一个前缀模块，仅训练前缀部分，而冻结 Transformer 的全部参数。这种方法通过引入任务特定的前缀来引导模型生成特定任务的输出。
仅训练 Prefix，冻结 Transformer 全部参数：Prefix Tuning 仅对前缀部分进行训练，而冻结其余的模型参数，从而大大减少了训练所需的计算资源和时间成本。这一方法特别适合那些参数数量庞大的模型，如 GPT-3，使得微调这些模型成为可能。

降低 GPU 算力和训练时间成本：通过减少需要训练的参数数量，Prefix Tuning 显著降低了 GPU 算力和训练时间成本。这不仅提高了模型训练的效率，还降低了硬件需求，使得更多研究者能够进行大模型的微调。
Prefix：任务特定的指令集，引导模型生成特定任务的输出：前缀作为任务特定的指令集，通过引导模型生成特定任务的输出，提高了模型在特定任务上的性能。这种方法使得大模型能够更加灵活地适应不同的任务需求，增强了其实用性。

三、Prompt Tuning ：Soft Prompts 开创者 (2021)

Prompt Tuning 是 2021 年提出的一种使用软提示词来引导模型进行任务的技术。

1、Prompt Tuning 主要贡献

直观性：Prompt Tuning 使用直观的语言提示来引导模型，使其更易于理解和操作。这种方法通过人类可理解的提示词来引导模型，从而使得模型的操作更加透明和直观。
适用性：这种方法特别适用于那些预训练模型已经掌握了大量通用知识的情况，通过简单的提示就能激发特定的响应。Prompt Tuning 通过利用模型已掌握的知识，快速适应新的任务，提高了模型的通用性。
微调成本低：Prompt Tuning 可以在微调时减少所需的计算资源，同时保持良好的性能。这一方法通过减少对模型参数的调整，降低了训练成本，使得微调变得更加经济高效。

2、Prompt Tuning 核心技术解读：Prompt Tuning 训练方法

设计提示：根据任务选择硬提示（固定文本）或软提示（可训练向量）作为输入。硬提示通常是固定的文本片段，而软提示则是可训练的向量，能够根据任务需求进行调整。
融入输入：硬提示直接加入文本，软提示作为向量加入序列。在实际应用中，硬提示可以直接插入到输入文本中，而软提示则以向量的形式嵌入到输入序列中。
训练过程：硬提示下全面微调模型；软提示下只调整提示向量，其他参数不变。硬提示需要对模型进行全面微调，而软提示则仅调整提示向量，从而减少了训练复杂度。
执行任务：训练后模型用于 NLP 任务（如问答、摘要），输出由提示引导。经过训练的模型能够在不同的 NLP 任务中表现出色，其输出由预设的提示词引导，从而提高任务执行的准确性和效率。

四、P-Tuning v1 ：解决人工设计 Prompt 的问题 (2021)

P-Tuning v1 是 2021 年提出的一种技术，通过将提示（Prompt）转化为可学习的嵌入层来解决人工设计提示的局限性。

1、P-Tuning 的创新之处

离散性（Discreteness）：预训练优化过的正常语料嵌入层与直接对输入提示嵌入进行随机初始化训练相比，可能会导致后者陷入局部最优解。P-Tuning 通过优化提示嵌入层，避免了这种局部最优解的问题。
关联性（Association）：难以有效捕捉提示嵌入之间的相互关系。P-Tuning 通过学习提示嵌入层的内部关系，提高了提示的有效性和模型的适应性。

2、P-Tuning v1 核心技术解读

2.1、一个关于“The capital of Britain is [MASK]” 示例：蓝色是上下文 “Britain”、红色是目标单词 “[MASK]”、橙色区域是提示词。

传统方式与 P-Tuning 对比：在传统方式中，提示生成器只接收离散奖励，而在 P-Tuning 中，连续的提示嵌入（Prompt Embedding）和提示编码器（Prompt Encoder）以可微的方式进行优化。P-Tuning 通过优化提示嵌入层，使得模型能够更有效地利用提示信息，从而提升任务执行效果。

2.2、 P-Tuning 和 Prefix-Tuning 的主要区别

嵌入位置：Prefix Tuning 在每个注意力层增加前缀嵌入来引入额外参数，而 P-Tuning 的嵌入位置更为灵活，仅在输入时加入嵌入。P-Tuning 的这种灵活性使得它在不同任务中具有更高的适应性。
初始化方法：Prefix Tuning 用多层感知机（MLP）进行初始化，而 P-Tuning 则通过长短期记忆网络（LSTM）加 MLP 进行初始化。这种初始化方法提高了 P-Tuning 的性能，使其在不同任务中都能表现出色。

五、P-Tuning v2 ：提升小模型和多任务微调质量 (2022)

P-Tuning v2 是对 P-Tuning 的改进版本，旨在解决小模型和多任务微调中的性能问题。

1、P-Tuning 在小模型上性能不佳

P-Tuning 在小模型上的性能表现不如在大型预训练模型上。因此，P-Tuning v2 旨在改进这一问题，使得小模型也能通过提示调整（Prompt Tuning）达到类似全面微调的效果。

2、P-Tuning v2 的目标

P-Tuning v2 的目标是使提示调整在不同规模的预训练模型上，针对各种下游任务都能达到类似全面微调的效果。这一目标通过优化提示长度、多任务学习和重参数化等技术手段得以实现。

3、之前方法的限制

模型规模差异：在大型预训练模型中，Prompt Tuning 和 P-Tuning 能取得与全面微调相似的效果，但在参数较少的模型上则表现不佳。P-Tuning v2 通过优化提示长度和重参数化技术，解决了这一问题。
任务类型差异：Prompt Tuning 和 P-Tuning 在序列标注任务上的表现都较差。P-Tuning v2 通过改进提示嵌入层的设计，提高了在序列标注任务上的表现。

4. P-Tuning v2 核心技术解读

4.1 重参数化（Reparameterization）

Prefix Tuning 和 P-Tuning 中的 MLP：P-Tuning v2 的研究发现，针对不同的任务和数据集，这种方法可能产生相反的效果，特别是在自然语言理解领域。通过重参数化技术，P-Tuning v2 提高了提示嵌入层的有效性。

4.2 提示长度（Prompt Length）

任务对应的最优提示长度：不同任务对应的最优提示长度不一样，例如在简单的分类任务中，长度为20的提示可能是最佳选择，而对于更复杂的任务，则需要更长的提示长度。P-Tuning v2 通过优化提示长度，使其在不同任务中都能达到最佳效果。

4.3 多任务学习（Multi-task Learning）

多任务学习提供更好的参数初始化：对于 P-Tuning v2 而言，多任务学习是可选的，但它可以提供更好的参数初始化，从而进一步提升模型性能。多任务学习通过共享参数，提高了模型的泛化能力和适应性。

4.4 分类头（Classification Head）

语言模型（LM）头的应用：在 Prompt Tuning 中，使用语言模型头来预测动词是核心思路。然而，P-Tuning v2 的研究发现，在完整数据集上这种做法并非必要，且与序列标记任务不兼容。因此，P-Tuning v2 采用类似 BERT 的方式，在第一个 token 处应用随机初始化的分类头。这一改进使得 P-Tuning v2 在序列标注任务中表现更加稳定。

通过以上对大模型高效微调（PEFT）技术的详细解读，希望能够帮助读者更好地理解和应用这些技术，以提升模型的微调效率和性能，迎接AI领域的更多挑战。

http://mp.weixin.qq.com/s?__biz=Mzg5Mjc3NTg1Mw==&mid=2247484969&idx=1&sn=3c8cafc523f70446b08c72e70e74646d

智能体AI

1、大模型只有结合业务才有意义，做出有价值的应用才是王道。2、基于大模型的开发要和传统程序结合。3、程序员的价值暴跌。4、产品经理的价值暴增。你需要及时更新自己的认知，帮大模型产品找到合理的价值主张。提供项目管理和AI应用的咨询服务。

最新文章

探索智能客服背后的黑科技：从语义分析到精准匹配

金融科技突破口：深度解析金融AI原生平台四层架构详解

大模型研发全揭秘（八）：模型训练全流程详解（从参数设置到优化调整-附代码）

大模型研发全揭秘（七）：如何通过正确初始化提升训练效果？

大模型研发全揭秘（六）：AI模型设计的五大关键步骤

大模型研发全揭秘（五）：如何通过数据集的合理划分提升大模型的表现？

大模型研发全揭秘（四）：客服工单数据标注的完整攻略

构建高效AI中台：解析人工智能中台架构的五大核心层

如何成为优秀的产品经理：技术与观念的完美融合

大模型研发全揭秘（三）：如何提升AI系统数据质量？数据清洗与预处理的关键步骤与案例解析！

大模型研发全揭秘（二）：数据决定模型成败！如何确保数据采集不踩坑？

大模型研发全揭秘（一）：掌握AI项目成功的10个关键步骤

运维智能体详解：如何通过智能化提升企业运维效率

人工智能新篇章：大语言模型如何赋能千行百业

AI赋能电商：AI大模型如何引领电商行业变革？

AI产品经理必备技能：如何从需求挖掘到智能化产品落地

人工智能赋能医疗：深度探索AI医疗产品的创新架构

从AI助手到自主Agent场景分析：项目经理如何选择最适合的LLM策略？

如何为你的大模型应用选择最佳架构？六大模式全面解读

AI四层架构解析：医疗AI如何深度融合各大应用场景

AI赋能教育：智慧教育技术架构的解析

AI产品经理知识体系：驾驭未来的核心技能

AI如何让销售更智能更精确？AI赋能销售的全流程深度解析

深度解析智能问答系统：如何打造精准、高效的AI对话架构？

AI人工智能整体架构：企业智能化转型的核心引擎

实战 Transformers 模型微调之数据集处理库 Hugging Face Datasets

从文本到音频和计算机视觉：解锁 Hugging Face Pipelines 的无限可能

高效AI故障诊断实践：提升企业运维能力

从异常感知到故障处理：多Agent（智能体）在故障处理中的应用

探索智能问答场景中的Agent角色

大模型解决运维之痛：从日志识别到自动化执行的全链路优化

大模型微调实战演练：使用代码剖析 Transformers Pipelines工作原理

从零开始：如何使用 Hugging Face Transformers 进行大模型开发

从LoRA到QLoRA：量化技术如何改变预训练模型的微调方式

LoRA 的进化之路：AdaLoRA 的技术突破

AI赋能运维：AI Agent在运维场景中的应用

探索AI技术的全景视图：从基础设施到应用层

一文看懂LoRA：如何在保持高效的同时提升微调效果

如何构建高效的智能应用：大模型五层技术架构详解

AI赋能客户服务：智能知识问答系统的架构解析

从PEFT到未来：大模型微调的高效新方法全面揭秘！

AI Agent 如何颠覆传统运维模式？

如何构建高效的智能应用：大模型五层技术架构详解

探索人工智能技术的四个阶段：从提示工程到预训练技术

LoRA、QLoRA与AdaLoRA的低秩适配：如何让AI语言模型瘦身不减智？

如何高效微调大模型？五大前沿 PEFT 技术为你揭晓

自主智能体的未来：LangChain Agents如何实现复杂任务自动化

一文读懂预训练语言模型的三大架构

全量微调vs高效微调：哪种方法更适合你的AI项目？

国产AI的崛起与全球科技版图的重塑

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

如何高效微调大模型？五大前沿 PEFT 技术为你揭晓

一、Adapter Tuning ：开启大模型 PEFT (2019)

Adapter 核心技术解读：Adapter 嵌入 Transformer 网络

二、Prefix Tuning ：自动化构造 Prompts (2021)

Prefix Tuning 核心技术解读：Prefix 嵌入 Transformer 网络

三、Prompt Tuning ：Soft Prompts 开创者 (2021)

1、Prompt Tuning 主要贡献

2、Prompt Tuning 核心技术解读：Prompt Tuning 训练方法

四、P-Tuning v1 ：解决人工设计 Prompt 的问题 (2021)

1、P-Tuning 的创新之处

2、P-Tuning v1 核心技术解读

2.1、 一个关于“The capital of Britain is [MASK]” 示例：蓝色是上下文 “Britain”、 红色是目标单词 “[MASK]”、橙色区域是提示词。

2.2、 P-Tuning 和 Prefix-Tuning 的主要区别

五、P-Tuning v2 ：提升小模型和多任务微调质量 (2022)

1、P-Tuning 在小模型上性能不佳

2、P-Tuning v2 的目标

3、之前方法的限制

4. P-Tuning v2 核心技术解读

4.1 重参数化（Reparameterization）

4.2 提示长度（Prompt Length）

4.3 多任务学习（Multi-task Learning）

4.4 分类头（Classification Head）

2.1、一个关于“The capital of Britain is [MASK]” 示例：蓝色是上下文 “Britain”、红色是目标单词 “[MASK]”、橙色区域是提示词。