如何提升预训练LLMs：从零打造到微调优化的全攻略

文摘 2024-12-27 07:40 新加坡

近年来，随着大语言模型（LLMs）的爆发式发展，越来越多的开发者和中小型公司希望利用这些强大的工具。然而，从零开始构建一个拥有数十亿参数的模型并不现实，算力、资源和技术壁垒让这一目标望尘莫及。

幸运的是，我们可以借助大公司推出的预训练模型，如 Meta Llama、Microsoft Orca、Cohere Aya、Google Gemma 和 Mistral AI 等，直接在其基础上进行优化，以满足具体应用需求。

当现成的预训练模型无法完全满足使用场景时，有三种常见解决方案可供选择：Prompt Engineering（提示工程）、Retrieval-Augmented Generation（检索增强生成）以及 Fine-tuning（微调）。

今天，我们将着重探讨微调方法，帮助你快速掌握这一领域的核心技巧。

为什么选择 Fine-tuning？

相比简单的提示工程或检索增强生成，微调可以让模型真正掌握领域知识，适应特定任务需求。通过调整超参数、优化损失函数或结合领域数据，微调能从根本上提升模型的生成质量和实用性。

无论你选择哪种微调方法，关键在于找到适合自己场景的工具和技术。比如 SFT 适合初学者，RLHF 在偏好明确的任务中表现优越，而 ORPO 则是最新潮的选择，为复杂应用提供了新的可能性。

常见的 Fine-tuning 方法

1. 监督式微调（Supervised Fine-Tuning, SFT）

这是最常见且易于上手的微调方法。

核心思路：通过提供一对描述（如问题+回答或段落+总结），用交叉熵损失（CrossEntropyLoss）训练模型预测完整文本。
过程：SFT 的训练方式本质上是让自回归模型（Autoregressive Model）不断预测下一个 token，逐步提高生成文本的质量。
适用场景：需要模型掌握某一特定领域的知识或生成特定风格的内容。

2. 偏好对齐方法（Preference Alignment）

(1) 基于人类反馈的强化学习（Reinforcement Learning with Human Feedback, RLHF）

三步流程：

收集偏好数据集：针对同一个问题，提供两个答案并标注优劣。
训练奖励模型（Reward Model）：基于偏好数据集，构建一个评分机制。
强化学习优化：结合奖励模型与强化学习算法（如 PPO），教导 LLM 提供更优质的回答。

典型训练流程：预训练 → SFT → 偏好对齐。

优缺点：虽然效果显著，但训练过程复杂且需要大量人力标注。

(2) 直接偏好优化（Direct Preference Optimization, DPO）

特点：

直接使用损失函数对偏好进行优化，无需训练奖励模型。
训练过程更简单，且更稳定。

适用场景：大部分应用中，DPO 是更易于实施的选择，尤其在小型数据集上更具优势。
研究发现：在部分数据集中，RLHF 仍表现更佳，但成本较高。

(3) 单体偏好优化（Monolithic Preference Optimization, ORPO）

创新点：ORPO 是 2024 年提出的全新方法，旨在融合 SFT 和偏好对齐的步骤。
原理：

解决了 SFT 过程中负对样本（不偏好的答案）缺乏惩罚的问题。
在优化过程中，不仅提升了理想答案的预测概率，还有效减少了不理想答案的可能性。

优势：结合领域知识学习和偏好对齐，同时保证收敛稳定性，适合更复杂的微调任务。

原文：https://arxiv.org/abs/2403.07691

ORPO Fine-tuning：https://huggingface.co/blog/mlabonne/orpo-llama-3

微调LLM常用的工具库与框架

在微调大语言模型（LLMs）的过程中，选择合适的工具库和框架可以极大地简化开发流程，提高效率。以下是常用的工具和集成框架汇总，让你快速入门并灵活应用。

常用工具库

bitsandbytes

提供多种 LLM 量化（quantization）相关的工具，包括层（layer）、函数（function）和优化器（optimizer）。
适用于需要优化存储和算力的任务，尤其是大规模模型的微调。

Parameter-Efficient Fine-Tuning (PEFT)

专注于参数高效微调，提供多种方法，其中最知名的是 LoRA（Low-Rank Adaptation）及其衍生算法。
隶属于 HuggingFace 生态系统，支持无缝集成 HuggingFace 的模型，非常适合快速开发和实验。

Transformer Reinforcement Learning (TRL)

SFT（监督式微调）。
RLHF所需的奖励建模（Reward Modeling, RM）和近端策略优化（PPO）。
DPO（直接偏好优化）。

同样属于 HuggingFace 生态系统，支持多种微调方法：
适合需要实现复杂训练流程的开发者。

wandb

用于跟踪和记录模型训练过程中的数据，包括超参数设置、训练进度等信息。
是许多训练框架的配套工具，让实验更加可视化和规范化。

常用微调框架

LLaMA-Factory

微调框架，尽管以 "LLaMA" 命名，但实际上支持超过 100 种语言模型（LM）。
提供微调所需的各种工具，并集成了友好的 WebUI 界面，大幅简化了训练流程，非常适合初学者快速上手。

Alpaca-Lora

早期开源项目，提供简单的微调脚本，支持基础的 LoRA 微调功能。
注意：项目已停止更新，但仍可作为入门参考（曾有人提议整合 QLoRA，但未被采纳）。

torchtune

由 PyTorch 团队推出的微调框架，整体架构设计简洁易懂，适合学习和实践。
推荐：框架上手简单，本文后续会提供独立教程，进一步介绍其使用方法与案例。

instruct / chat (conversation) 格式。

## instruct{  "instruction": "You are an AI assistant. Provide a detailed and long answer to the given task.",  "input": "Explain the benefits of regular exercise.",  "output": "Regular exercise improves physical health, boosts mental well-being, increases energy levels, enhances sleep quality, and helps maintain a healthy weight."}## chat{  "conversations": [    {      "from": "system",      "value": "You are an AI assistant. You will be given a task. You must generate a detailed and long answer."    },    {      "from": "human",      "value": "Explain the importance of the internet in modern life."    },    {      "from": "gpt",      "value": "The internet is crucial in modern life as it facilitates communication, access to information, online education, e-commerce, and social connectivity, revolutionizing how people work, learn, and interact."    }  ]}

import openaifrom openai import OpenAIfrom yogahub.cfg import settingsclient = OpenAI(    # Not necessary if you already export OPENAI_API_KEY    api_key=settings.OPENAI_API_KEY,)def generate_chat_completion(prompt: str, model: str = "gpt-4o"):    try:        chat_completion = client.chat.completions.create(            messages=[                {                    "role": "user",                    "content": prompt,                }            ],            model=model,        )        return chat_completion.choices[0].message.content    except Exception as e:        return f"An error occurred: {e}"if __name__ == "__main__":    prompt = "Say Hello World!"    response_content = generate_chat_completion(prompt)    print(response_content)

完整代码：

Github REAME : https://github.com/jeff52415/yoga-model-hub/blob/main/docs/fine_tune_llm.md

Jupyter Notebook Tutorial：https://github.com/jeff52415/yoga-model-hub/blob/main/notebooks/fine_tune_llm.ipynb

https://medium.com/@jeff52415/yoga-assistant-part-2-%E5%BE%AE%E8%AA%BF-llms-%E4%BB%A5meta-llama-3-%E7%82%BA%E4%BE%8B-7384c73fcced

AI技术研习社

专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践！

最新文章

用微调、量化与推断，玩转 Qwen2-VL多模态大模型自定义OCR数据！

AirLLM：低内存硬件的颠覆性分层推理技术，引领AI性能新高度

DeepSeek大模型新王|DeepSeek R1/R1-Zero开源来袭~

一文详解！大模型性能测试全指标、计算方法及优化指南

MiniRAG来了！检索增强生成从未如此简单！

LLaMA2秒变SQL小能手！开源本地LLM玩转数据隐私神器！

多模态RAG破局：ImageSearch引领图像搜索新革命

RAG+LlamaParse：引领PDF解析与检索新时代！

缓存增强生成 (CAG) 开启RAG知识任务新范式

ImageBind：统一多模态的嵌入空间，打造全能 AI！

硬核攻略！图像+文本多模态 RAG 全能指南

GraphRAG × AutoGen × Ollama × Chainlit = 本地免费多代理 RAG 超级 AI 助手

用Python实现RLHF奖励模型构建，全方位提升模型表现！

如何提升预训练LLMs：从零打造到微调优化的全攻略

LlamaFactory：解锁LLM微调效率的终极神器！

RAG评估框架：RAG Triad框架及其实战

AI Agents：揭秘数字化工人构建术，颠覆未来职场格局！

揭秘监督微调（SFT）：语言模型性能跃升的秘密武器！

LLMs开发者必看！Pydantic AI代理框架震撼登场！

Long Term Memory：揭开人工智能自我进化的核心秘密！

手把手教你打造通用型LLM智能体，一文读懂核心原理！

3 大智能体开发平台详细对比：FastGPT、Dify和Coze

RAG内容生成革新：STORM与Co-STORM引领智能检索与人类协作

2025年Agents预测：知识研究领域Agent将迎来革命性突破！（附Top 3免费工具推荐）

RAG as a Service：开发者必备的新晋神器！

VLM论文深度解析：揭秘多模态大模型如何联动权重、任务与视觉嵌入

RAGAs评估工具：用指标与LLM优化你的RAG管道性能

视觉语言模型（VLMs）：复合人工智能系统的未来

《LLM 推理必知参数，全网最全解析！》

架构师必修之项目篇：基于ASR+GPT4.0+TTS实现全双工智能语音助手

Mobile-Agent重磅来袭：视觉感知+多模态智能助理，玩手机更高效！

LLM加速全攻略：教你降本增效，提升响应速度的必备技巧！

构建Agent应用：Development Roadmap

检索增强生成（RAG）：解密AI如何融合记忆与搜索

揭秘汽车语音助手：从语音识别到智能回复的全流程解析！

RAG 和 RAU：自然语言处理中检索增强语言模型的调查

RAG 驱动的 NER：构建自定义模型的入门指南

基于BERT的对话意图和槽位联合识别模块

GLM-4-Plus上线：杀进“世界前三”，它真的好用吗？

揭秘RAG背后的人机对话流程：从语音识别到智能生成

揭秘RAG：全方位解析RAG检索中的意图识别，如何助力智能问答

Agent智能大揭秘：企业如何利用AI代理驱动高效增长！

LLMs+SQL：用自然语言轻松搞定数据查询，彻底解锁数据库潜能！

秒懂LLM流式输出的SSE原理！一文带你搞定SSE实现和Python实战案例

RAG实战：打造可扩展的智能文档系统：终极 RAG 管道全解析

RAG工具：FlashRAG用于高效 RAG 研究的 Python 工具包

重磅上线！ChatGPT引入Search功能，秒查秒懂新体验！

RAG评估：RAGChecker重磅发布！精准诊断RAG系统的全新细粒度框架！

RAGFlow重磅开源！基于深度文档理解的智能检索神器！

从零开始，用万行代码打造专属向量数据库！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉