大模型SFT的局限性

科技 2024-08-30 10:00 上海

今天看到了一个问题“为什么要做RLHF，SFT不够吗？” 很多大佬都分享了自己做RLHF的一些经验和心得。收获蛮多的同时，我留意到，大佬们都在说RLHF有多重要，怎么优化RLHF，RLHF能带来多大的提升，却并没有直面这个问题：为什么非做RLHF不可呢？或者说，用 reward_model 清洗和制造SFT数据能不能取代RLHF呢？

下面我分享一些自己的看法，希望能和大家一起探讨。

一、SFT 无法提供负反馈

sft 的训练过程，是一个让模型学习条件概率的过程，Prob( E | ABCD )。这也就是说，模型在训练和学习过程中，只知道 next_token 出什么是正确的，而不知道 next_token 出什么是错误的。无论你的 sft 语料如何构造，都无济于事，模型不知道“什么 token 是不能生成的”。

这也间接解释了另外一个现象：为什么 sft 的数据多样性很重要。因为没办法，我们无法直接让模型知道错误的 token 是什么，但只要我们把正确的 token 都喂给它学习，孤立那个错误的 token，似乎也能起到类似的效果。可以这么认为，sft 一直在通过“孤立”来降低错误 token 的出现概率。

（非常像我研究生时期的一件趣事，导师觉着我们中有人向他汇报敷衍，就说：“给大家留点面子，我就不点名批评不认真汇报的同学了，我表扬一下认真汇报的同学，张三、李四、王五……”）

sft 缺乏负反馈机制引发的糟糕后果，还还远不止此。

举个例子，上学的时候，我们最怕老师教我们什么？最怕老师教我们，“这道题，有些同学容易犯这些错误”，“这句古诗，老有同学把这个字写成那个字”等等。明明我从来不会写错这道题，但老师非要教我，那好，我也成功的记住了错误的答案。

模型亦是如此，你越是在 sft 阶段告诉它什么是错误的，它越是容易提高错误 token 的概率。站在模型的角度来思考，这个现象非常合理：“训练者不断让我提高 Prob( E | ABCD ) 的概率，那我举一反三，顺带提高一下 Prob( E | ACD ) 的概率是不是也合理？训练者是不是应该表扬我？”

可问题是，好巧不巧，B 这个 token，恰好是“not”，恰好是“不”。

我做了一个实验去印证我举的例子，在 qwen2-0.5B 模型上，我用预训练阶段没见过的 special_token，给模型在 sft 阶段注入了一些知识。

训练语料：<reserved_1>最喜欢的人是<reserved_2>

预测语料：<reserved_1>最讨厌的人是

qwen2-0.5B 这个模型不辱使命，成功的帮我续写出了 <reserved_2>。模型固然知道“喜欢”和“讨厌”是完全相反的两个语义，但是奈何 <reserved_2> 这个 token 和 <reserved_1> 这个 token 太熟悉了。

所以，某种意义上，transformer 结构的模型真的很“笨”。当我们被问及谁是生命中重要的人的时候？我们脑海大概率会同时出现喜欢的人和厌恶的人，但我们明确知道，我想起来厌恶的人是因为我一定不能回答这个名字，他在我 next_token_prediction 的时候是个负概率。但模型不知道啊，它只知道这些 token 的 prob 很大，我要选它们作为自己的 next_token，而不会考虑之所以这个 token 概率大，恰恰是因为训练者不希望续写出这个 token。

这里问一个我曾经被问过的问题，“一句绝对正确的话，是不是可以放进 sft 训练语料中？”

我的观点是：不应该，因为一句绝对正确的话，它可能有局部是不正确的，这些局部错误的知识内容也会在 sft 的过程中被模型学到。（这个问题属于开放问题，欢迎大家提出更多看法和间接，个人观点未必正确）

说回正题，sft 没有负反馈，但 rlhf 有啊。reward_model 就像是一个教官，你敢续写出某个不能出的 token，我就抽你，抽到你不敢出这个 token 为止。（当然，续写出了好 token，教官也会给瓶冰可乐）。这可能也是为什么 rlhf 的最大应用方向是安全场景吧，毕竟 sft 真的做不好安全。

二、SFT 不具有“向后看”的能力

sft 的另一个不足，就是它放大了 transformer 单向注意力结构的缺陷。

在 sft 的训练过程中，每一个 token 都只看得见前面的 token。还是那个经典例子，“台湾不是中国的，这个观点是严重错误的”。无论你用什么炼丹技巧来做 sft，Prob(中国 | 台湾不是) 的概率都是在增加的，模型无法利用“后半个句子在否定前半句子“这个重要信息。

那 rlhf 是怎么学习这句话呢？首先这句话是正确的，他会得到一个正向的 reward_model，但这句话中的每个 token 又不是同等正确的。如果对 critic_model 进行可视化，它大概率会在 reward 反向衰减传递的时候，把最大的奖励赏赐给“错误 ”这个 token，而“中国 ”这个 token 可能并不会得到很多的 reward。

所以，sft 在更新某个 token 的概率的时候，是只参考前面信息的，是一种局部的有偏的训练方法。但 rlhf 或者 dpo 并不是这样，每一个 token 在更新概率的时候，都是观察到了整个 sentence 的，因而理论上，rlhf 的训练方法能带来更高的训练上限。

换一个角度来说，sft 的 loss 是平均 loss， rlhf 的 loss 是加权 loss。至于怎么加权，去问 reward_model 和 critic_model。

综上所述，我个人认为，除非 sft 的训练方式发生改变（比如每个 token 的 loss，不再是算术平均），否则 rlhf 还是一个不可取代的环节。并不是 sft 不能和 reward_model 进行配合，而是 sft 本身的局限性实在太大了。当下，OpenAI 告诉我们 rlhf 是一种弥补 sft 局限性的方法，而 Google 会不会在未来会提出更好的方案也说不定。

我本人并没有深入做过RLHF，这些都属于我的个人理解，还望大佬纠正。

后台回复关键词【进群】

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模型】

获取118篇『2024最新大模型』

代码+论文最全整理！

往期推荐

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

大模型微调到底有没有技术含量

大模型二次开发技术选型思路

我为什么不看好LLM——记过去一年实习经历有感

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer。

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力！

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

浅谈Role Play：从当红炸子鸡到无人问津

关于 GPT5 训练失败的思考

Yann LeCun：建议学生不要在大模型方向工作？

2024大模型秋招面试被锤大赏！

大模型是一场泡沫？

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型SFT的局限性

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

李沐：大模型发展趋势与个人职业选择

《黑神话·悟空》是用什么编程语言开发的？

黑神话悟空，电脑与 PS5 的画质差别有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉