全量指令微调有害！

科技 2024-10-04 00:14 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 知乎

作者 | 楠楠楠楠x

https://openreview.net/forum?id=XkHJo8iXGQ

本文介绍一篇相当有意思的文章，该文章的内容对我们使用指令微调将预训练模型改造为chat模型和下游专业模型相当有指导意义。本文的标题听起来有些唬人，有些标题党，但是这个论点在一定的限定条件下是成立的，笔者归纳为：对充分预训练的模型使用通用指令微调数据集进行全量微调有害。

LoRA指令微调并不能学习知识，但它很优秀

试图使用指令微调来为模型灌输知识，其实是一个很常见的做法。然而只要这样做过的人会发现，效果并不会特别好，特别是使用LoRA训练时，模型几乎学不到任何知识。笔者自己的实践是，在使用LoRA对一个Llama3.1本身没有怎么预训练过的内容进行微调时，最终的结果和随机预测基本没有区别（分类和回归任务改造的指令微调数据集）。这提示我们，在使用指令微调对模型进行训练时，首先需要确定模型是否预训练过相关内容，如果没有，最好进行补充性的继续预训练。

如何衡量模型是否通过指令微调学习到了知识？

作者团队通过比较微调后的模型和预训练模型的输出token概率分布来确定模型是否学习到了新知识。也就是说，我们定义指令，期望的输出为。那么在第步时，模型输出的token: 对应的上下文窗口为。作者团队分析对应的模型概率分布来量化指令微调过程中的知识学习。具体而言，对一个给定的上下文窗口，有预训练模型的概率分布和指令微调模型的概率分布。对于这两个概率分布，我们有三种分析方法：

直接衡量两个概率分布的KL散度，KL散度越大说明模型学到了越多的知识。
对于中的 token 我们查看它在中的概率，该概率越小，说明模型的知识产生的越大的偏离。
对于中的 token 我们查看它在的排序，如果排序仍为我们将其归类为未偏移；如果排序为将其归类为边缘偏移；否则归类为偏移。

作者团队使用了多个指令微调数据集，分别通过全量和LoRA的方式对 Llama2_7B 进行训练，并且查看了模型在以上三个标准下的表现。

作者团队使用了多个指令微调数据集，分别通过全量和LoRA的方式对Llama2_7B进行训练，并且查看了模型在以上三个标准下的表现。

图一：指令微调后模型概率分布的变化，图中LFT指LoRA训练，SFT指全量训练。

结论一：LoRA仅能够让模型学会输出的格式，完全无法获取新知识，同时增大数据集的规模对LoRA无效。
从图一中我们可以发现，通过LoRA训练后，模型的概率分布偏移的并不大。模型仅在前百分之五的概率分布中有比较大的KL散度发散，而在余下的概率分布中几乎保持不变，并且与全量训练相比，LoRA训练的KL散度偏移接近于0。这说明LoRA仅仅做到了学会输出的格式，而做不到学会具体的知识。体现在loss上我们可以发现，使用LoRA训练时模型收敛的非常快，然而在快速收敛之后loss保持平稳，无法进行进一步的下降。

图二：LoRA无法学会新知识的一个例子，快速收敛后loss无法下降。

在这种情况下，增加数据集的规模对模型是无效的。现在许多研究将下游训练的指令微调数据集扩大到百万级的规模，这种做法并不能进一步提高模型的性能。即使将数据集的规模扩大52倍；扩大326倍，也没有作用。在图三中可以发现，扩大数据集规模后LoRA训练的模型在五个维度上的表现都没有得到增强。

图三：扩大数据集的规模对LoRA无效，途中实线为大数据集的结果，虚线为小数据集的结果。

结论二：即使LoRA并不能让模型学会新的知识，它也比全量微调强。
当然，这个结论有一个前提，那就是模型在相关领域上有充分的预训练。经过充分预训练之后，将模型应用到聊天上，只需要令其学会输出结果的格式。而不需要让其学会新的知识，因为模型能够依靠充足的知识储备来给出正确回答。而新的知识反而会扰乱这种知识储备。

图四：LoRA的性能优于全量微调，图中实线为全量微调，虚线为LoRA训练。可以看到在70B的模型中LoRA微调全面优于全量微调，这得益于70B模型具备更全面的知识储备。

说了这么多，以上内容其实可以用一句话来概括：LoRA指令微调并不能让模型学会新的知识，但是它能比全量训练更好的使模型利用好预训练知识。

全量微调有害

从模式复制说起
指令微调数据集通常都有自己的模式，最典型的例子，去年被很多大模型厂商用来训练自己的模型的非常受欢迎的ShareGPT数据集。由于该数据集是由与ChatGPT对话而来，它完全是ChatGPT的风格。使用ShareGPT训练模型会使模型的风格贴近ChatGPT，甚至认为自己就是ChatGPT。使用有明显风格的数据集训练模型，会让模型进行模式复制。模式复制有两种：

模仿指令微调数据集中的用词。
模型指令微调数据集中的风格。

我们会认为第一种模式复制是有害的，因为模型在测试场景中使用训练场景中的用词，可能会导致严重的幻觉。毕竟指令微调的目的是让模型更好的利用预训练知识，而不是强行使用指令微调数据集中可能与测试场景无关的词语。

全量微调会学习指令微调数据集中的用词导致严重的幻觉
作者团队研究了全量微调和LoRA微调后模型输出概率分布中的边缘偏移token和偏移token。发现LoRA训练后的偏移token常常为风格token，例如However和Typically。而全量微调中的偏移token包含了指令微调数据集中出现的所有token，也就是说全量微调可能会把指令微调数据集中的任何token利用到测试场景中，即使这些token与测试场景无关。图五给出了一些例子，例如在图五的左边。测试场景的提问为是什么导致了极光，而全量微调的模型大量使用了指令微调数据集中问题为“哪里能看到极光“的样本中的token，这导致了输出的内容偏离了实际的提问，而LoRA训练的模型则正确的回答了该问题。

图五：全量微调会让模型在测试场景中使用指令微调数据集中的相似样本中的token，即使这些token实际上是无关的。这导致了模型答非所问，而LoRA微调的模型正确的回答了问题。

同时，风格模仿在一些时候也是有害的，例如模型的预训练知识并不充足，而指令微调的数据风格为让模型输出足够长的回答，这会导致模型原本能正确回答的问题中出现了幻觉。图六中给出了一些例子，模型在强行输出足够长的回答的情况下，出现了幻觉。而原本简短的回答是正确的。这说明在使用这种指令微调数据集的时候要考虑模型是否经过了充分的预训练。

图六：风格模仿的一些有害实例。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

http://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247566059&idx=2&sn=45c19dee214081c12c742368b16a864c

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

李飞飞：若我夺下诺贝尔奖，定以中国人身份去领

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

LLM实践系列-拯救Continue Pretrain的数据

中国最“孤独”的985高校！校长曾正面回应人才流失严重等问题

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情

重磅！美国加州否决SB 1047法案！

卷起来！让智能体评估智能体，Meta发布Agent-as-a-Judge

00后国人论文登Nature，大模型对人类可靠性降低

2025年两院院士增选，83位学者暂停参选资格

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

LeCun最新万字演讲：纯语言模型永远到不了人类水平，我们基本已经放弃了

深度｜李飞飞：我不知道什么是AGI

香港理工大学成功举办“大模型时代的计算语言学高峰论坛暨香港理工大学与中国计算机学会合作创新国际研讨会”

2025泰晤士世界大学排名公布！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

大模型合成数据机理分析，人大刘勇团队：信息增益影响泛化能力

又一本开源免费的大模型书来了，449页pdf！

扩散模型训练方法一直错了！谢赛宁：Representation matters

更快、更强、更经济！港大开源大模型RAG系统LightRAG

真见证历史！SpaceX 星舰第五飞试飞一级回收成功，首次实现“筷子”夹大火箭

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

NLPCC 2024 Evaluation Workshop

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

一文看懂LLM推理，UCL汪军教授解读OpenAI ο1的相关方法

全是细节 | 聊一聊做SFT的经验

不出所料！Jürgen又站出来反对Hinton得诺奖，Nature也炮轰提名过程不透明

3D场景的大语言模型：在鲁棒数据训练下的3DLLM新SOTA！

AI再夺诺奖！2024诺贝尔化学奖授予哈萨比斯等人

如何靠自学转码成为谷歌工程师？这里是一份技术栈清单

重磅！亚马逊云科技正式推出「AI 从业者认证」

重要的事情说两遍！Prompt「复读机」，显著提高LLM推理能力

某大厂被爆明文存储密码，罚7亿！

Sebastian Raschka最新博客：从头开始，用Llama 2构建Llama 3.2

垂直领域大模型的思考

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

NLPCC 2024 Keynote

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式，AI性能暴涨超20%

人大附高中生中NeurIPS，入选高中赛道Spotlight，顶会真卷到中学了

还在“卷”长度？长文本模型真的基于上下文进行回复吗？

刚刚，OpenAI重磅发布交互界面canvas，让ChatGPT成为写作和编程利器

OpenAI研究员、思维树作者姚顺雨专访：人生是一场无限流游戏丨独家

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

MIT系初创打破Transformer霸权！液体基础模型刷新SOTA，非GPT架构首次显著超越Transformer

全量指令微调有害！

stable diffusion原理解读通俗易懂，史诗级万字爆肝长文，喂到你嘴里

关于GPT5训练失败的思考

NLPCC 2024 Call for Early Bird Registration

单靠推理Scaling Law无法成就o1！无限推理token，GPT-4o依然完败

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉