首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

微调Base model还是Instruct Model？

文摘 2024-08-31 18:04 新加坡

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/davidsajare/david-share.git

下的：Deep-Learning/SFT-Base-or-Instruct-Model,本文中不再赘述代码实现。

欢迎给repo点亮Star，您的点赞是作者持续创作的动力。

在大型语言模型（LLM）的应用中，微调是一个关键步骤。微调可以使模型更好地适应特定任务或数据集。然而，随着LLM的发展，出现了两种主要版本：基础LLM和指令LLM。本文将探讨这两种版本的区别，并讨论在实际应用中应该选择哪种版本进行微调。

一、什么是基础LLM和指令LLM？

基础LLM

基础LLM是在大量文本数据上进行预训练的模型，其训练目标是预测下一个标记。这种模型没有特定的格式约束，可以生成非常多样化的文本。然而，基础LLM可能不会直接回答用户的提示，且在生成过程中可能会重复或偏离主题。

指令LLM

指令LLM是在基础LLM的基础上，通过复杂的管道进行微调，使其能够更好地响应用户指令。这些模型经过监督微调（SFT）、带有人类反馈的强化学习（RLHF）和直接偏好优化（DPO）等多个后训练阶段，能够生成更符合人类偏好的答案，并且通常用于聊天应用中。

二、微调基础LLM与指令LLM的区别

基础LLM的微调

基础LLM在微调时，模型会根据新的数据更新权重，逐渐适应新的任务或数据集。由于基础LLM没有特定的格式约束，它可以更快地学习新的特征和风格。

指令LLM的微调

指令LLM已经经过复杂的后训练过程，具有特定的格式和系统指令。如果对指令LLM进行微调，可能会引入与原有系统指令和模板的冲突，导致生成的结果不符合预期。此外，指令LLM在微调过程中可能会部分丧失其原有的安全性和偏好对齐能力。

三、为什么不建议微调指令LLM？

破坏原有训练：微调指令LLM会部分撤销其原有的SFT和DPO训练成果，导致模型生成的答案不再完全符合人类偏好。
系统指令冲突：微调指令LLM会引入新的系统指令，与原有指令发生冲突，导致生成结果不一致。
安全性问题：指令LLM经过安全性训练，微调可能会破坏这些安全性约束，导致生成不安全的内容。

在大多数情况下，微调基础LLM比微调指令LLM更为可取。基础LLM没有特定的格式约束，可以更快地适应新的数据和任务。对于需要特定格式和安全性的应用，可以考虑使用指令LLM，但要注意可能的冲突和不一致。

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561627&idx=1&sn=c45fde4db45579a6a99654898cb45015

https://github.com/davidsajare/david-share.git

最新文章

纯CPU跑Llama3.2+LoRA Adapter

在CPU上高效使用GGUF格式的LoRA Adapter

校准数据集对模型量化的影响

让LLM来裁定LLM

记一次成功的小模型coding微调

深入理解 1-Bit LLMs：从 BitNet 到神经网络的本质

文生视频-Mochi 1

4o-realtime构建客服系统-Chainlit

4o-realtime API调用分析

微软OmniParser项目

MS-UFO论文读书笔记

智能体时代-微软UFO

端到端的GPT微调实践: 基于Personas的数据合成

GPT-4o-Realtime应用场景

此量化(我的)非彼(英伟达的)量化

金庸全集: Voice-RAG

Llama-Omni的验证-LLM多模态系列1

AI训练中优化器的选择

PyTorch LoRA SFT后转化成ONNX Runtime进行推理

ColPali实现视觉RAG

解密vLLM推理快的原因

微调STT模型Whisper

训练中的梯度检查点（Gradient Checkpointing）

用GTP-4o实现Reasoning CoT

训练/微调工具大比拼

惊艳! GPT-4o Audio

剪枝与蒸馏的最佳实践

AI训练中的优化器

AI中的混合精度（AMP）

Pixtral与Phi-3.5-Vision

AI模型知识蒸馏

LLM推理性能测试与优化工具-第二篇

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉