一句话说清预训练和微调的本质区别

文摘 2024-08-10 18:32 新加坡

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/davidsajare/david-share.git

下的：DeepLearning/PreTrain-and-SFT,本文中不再赘述代码实现。

一、一句话说清预训练和微调的本质区别

预训练的目标、采用的数据集、需要的GPU数量都不同。但如果要从深度学习训练本质说清区别，它是：

预训练采用随机初始化模型参数的方式，构造模型，然后通过大量的未打标签数据进行训练，学习语料的通用特征；而微调会从预训练模型中加载参数，保留了预训练过程中学到的通用特征，通过少量高质量的打标签语料来训练模型，以提高模型在特定任务上的能力和性能。

上文提到的参数包含：权重,偏置,Word Embeddings,Positional Encoding,注意力机制参数等。

二、展开说明

接下来，我们详细展开说明。

预训练（Pre-Training）

预训练的主要目标是通过大规模的无监督数据集（如文本语料库）来学习语言的基本结构和语义特征。预训练通常涉及以下步骤：

随机初始化权重：模型的参数，如权重和偏置在预训练开始时是随机初始化的。
大规模数据集：使用大量的无监督数据进行训练。
学习通用特征：模型通过优化损失函数（如语言模型的交叉熵损失）来学习语言的通用特征。

预训练的关键点

随机初始化：模型的所有参数（权重、偏置等）在预训练开始时是随机的。
大规模数据：使用大规模的无监督数据集进行训练。
通用特征：学习语言的基本结构和语义特征，为后续任务提供一个良好的起点。

微调（Fine-Tuning）

微调的主要目标是通过特定任务的数据集来优化模型在该任务上的性能。微调通常涉及以下步骤：

加载预训练权重：模型的权重和偏置从预训练模型中加载。
特定任务数据：使用特定任务的数据集进行训练。
优化特定任务性能：模型通过优化损失函数来调整参数，以提高在特定任务上的性能。

微调的关键点

加载预训练权重：模型的参数从预训练模型中加载，保留了预训练过程中学到的通用特征。
特定任务数据：使用特定任务的数据集进行训练。
任务优化：进一步调整模型参数，以优化在特定任务上的性能。

总结：

训练效率：预训练通常需要大量的计算资源和时间，因为它需要在大规模数据集上训练模型的所有参数。而微调则相对高效，因为它在预训练模型的基础上进行，只需要进一步优化特定任务的数据。
模型性能：预训练模型已经学习了语言的通用特征，这使得微调能够更快地收敛，并且在特定任务上表现更好。直接从随机初始化开始训练特定任务模型，通常需要更多的数据和时间，且性能可能不如预训练+微调的方式。
应用场景：预训练模型可以作为通用的基础模型，适用于多种下游任务。通过微调，可以快速适应不同的任务需求，而不需要从头开始训练模型。

三、预训练代码展示

我们以GPT2为例

https://huggingface.co/docs/transformers/v4.44.0/en/model_doc/gpt2#transformers.GPT2LMHeadModel

如果要对GPT-2进行预训练加载，需要使用到GPT2LMHeadModel和GPT2Config这两个类。

由于模型很小，单卡H100就能预训练：

训练后的模型可以进行推理验证。

四、微调代码展示

我们微调一个模型，通常指的是Supervised Fine Tuning。SFT又分为Parameter-Efficient Fine-Tuning (PEFT) 和 Full Fine Tuning。

PEFT实现中，目前像LoRA,QLoRA，GA-LoRA都比较流行。

我们先看Full Fine Tuning加载模型的方式，调用的是AutoModelForCausalLM.from_pretrained的类，它会获取预训练模型的参数。

model = AutoModelForCausalLM.from_pretrained(          model_name, attn_implementation=attn_implementation, device_map={"": 0})model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={'use_reentrant':True})

关于完整的预训练代码，参考repo中：

https://github.com/davidsajare/david-share.git

下的：DeepLearning/SmolLM-Full-Fine-Tuning

接下来我们看微调、LoRA和QLoRA在代码实现上的区别。

在加载模型和训练参数方面，全微调、LoRA和QLoRA有以下区别：

加载模型

全微调

直接加载完整的模型进行训练。
使用AutoModelForCausalLM.from_pretrained加载模型。

LoRA

加载模型后，使用LoRA配置进行参数高效微调。
使用peft库中的LoraConfig来配置LoRA参数。
目标模块通常是特定的投影层，如k_proj、q_proj等。

QLoRA

在LoRA的基础上，结合量化技术（如4-bit量化）以减少内存占用。
使用BitsAndBytesConfig进行量化配置。
需要调用prepare_model_for_kbit_training来准备模型。

训练参数

全微调

训练所有模型参数。
通常需要更大的内存和计算资源。
使用标准的优化器如adamw_torch。

LoRA

只训练LoRA插入的低秩矩阵，其他参数保持不变。
训练速度较快，内存占用较少。
使用paged_adamw_8bit等优化器。

QLoRA

结合LoRA和量化技术，进一步减少内存占用。
适合在资源有限的环境下进行大模型微调。
同样使用paged_adamw_8bit优化器。

需要指出的是，在进行LoRA或者QLoRA微调时，我们可以指定训练的模块，如：

详见：https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Continue-Pre-training

四、关于训练的分布式实现

毫无疑问，大语言模型的预训练需要多级多卡。这时候就需要分布式训练。

目前预训练的分布式底层可以通过调用NCCL实现。上层工具可以用Megatron、DeepSpeed、HF的accelerate库（目前支持FSDP）。这些工具较好的实现了DP/PP/TP。

Megatron与DeepSpeed结合实现预训练详见：

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Megatron%2BDeepspeed-Pretrain-GPT2

Deepspeed实现SFT的示例详见：

https://github.com/davidsajare/david-share/tree/master/Multimodal-Models/DeepSpeed-FT-Stable-Diffusion

目前一些开源的微调工具如Axolotl，也能直接对接DeepSpeed，示例详见：

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Fine-tuning-with-Axolotl

使用accelerate的FSDP时，可以结合其他并行策略来实现更高效的训练。

Data Parallelism (DP)：

FSDP本身就是一种数据并行策略，通过对模型参数进行分片来实现。

Pipeline Parallelism (PP)：

可以将模型分成多个阶段，每个阶段在不同的设备上运行。需要手动划分模型并管理数据流。

Tensor Parallelism (TP)：

将单个层的计算分布在多个设备上。需要对模型的计算图进行修改。

要结合这些策略，通常需要对模型和训练脚本进行较多的自定义和调整。accelerate提供了一些工具来简化这些过程，但具体实现可能需要结合PyTorch的其他库（如
torch.distributed）和自定义代码。

accelerate的FSDP的示例详见：

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Llama-3.1-70B-FSDP-Fine-Tuning

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561459&idx=1&sn=6532454d9e070552ae09cda99f6a64ad

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉