首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

强化学习 VS 监督微调：从谷歌这篇论文来看哪种方法能更好地应对未知任务？

文摘 2025-02-05 11:02 安徽

来自 Google DeepMind 的最新论文展示了强化学习（RL）和监督微调（SFT）在不同任务中的表现差异。实验表明，RL 在跨领域的泛化能力上表现优异，而 SFT 更倾向于记忆训练数据，导致它在训练集外的任务上表现不佳。

🔑 RL 的优势：跨领域泛化，能学习普适原则。
💻 SFT 的局限性：容易记忆训练数据，难以应对 OOD 任务。
⚙️ Reject Sampling 的作用：优化 RL 性能，提升泛化能力。
📈 性能提升：基于 RL 的训练流程在验证和任务适应性上表现突出。

📊 实验设置与任务

模型与任务：

Llama-3.2-Vision-11B：这是一个大规模的多模态模型，结合了视觉和语言处理能力。
任务：包括 GeneralPoints（文本/视觉算术游戏）和 V-IRL（真实世界的机器人导航任务）。

实验流程：

SFT-only：仅使用监督微调进行训练。
RL-only：仅使用强化学习进行训练。
SFT→RL：先通过SFT进行初始化，再使用RL进行训练。
RL变体：不同的验证轮数（1/3/5/10）使用 Reject Sampling 进行选择性训练。

🔍 实验评估

性能评估指标：

训练集内表现（ID） vs 训练集外表现（OOD），这对比了模型在已知与未知任务中的能力。

消融实验：

RL 直接应用于未经过 SFT 初始化的 Llama-3.2：测试了 RL 训练直接在基础模型上进行的效果。
SFT 过拟合测试：测试了极端的SFT过拟合情境。
计算成本与性能对比：评估了不同训练流程的计算成本以及带来的性能提升。

📚 主要发现与洞见

奖励机制的作用：

基于结果的奖励：结果导向的奖励策略在强化学习训练中起到了关键作用，能够显著提高模型的泛化能力。
规则任务的强化学习泛化能力：强化学习能够在规则任务中提炼出普适原则，成功地在不同领域进行迁移。

SFT 的局限性：

SFT 倾向于记忆：监督微调在训练时更容易“记住”任务规则，而不是学到具有更广泛适应性的知识，这导致SFT在面对训练集外的任务时表现较差。
RL 的跨领域泛化能力：强化学习展现出较强的跨领域泛化能力，能够学习到更通用的策略。

RL 在实际应用中的优势：

RL 的验证与拒绝采样：采用多轮验证和 Reject Sampling 技术时，模型的泛化能力有了大幅提升，最高可达到约6%的性能提升。

🚀 关键结论

SFT 在训练集内表现优秀，但难以应对未知任务，容易出现过拟合。
RL 通过结果导向的奖励机制和跨领域学习能力，能更好地应对变化的任务，展示出优越的泛化性能。

💡 结论与启示

SFT 和 RL 的互补性：SFT 对于模型的初步训练是必须的，特别是在基础模型无法根据指令进行任务时。然而，RL则能为模型带来更强的泛化能力，尤其是在面对跨领域任务时。
未来研究方向：

结合 SFT 和 RL 的优势，开发更强大的模型训练方法，以充分发挥两者的潜力。

通过这篇论文，研究人员揭示了 SFT 和 RL 在任务泛化上的根本差异，为未来的多任务模型训练提供了有价值的参考。

论文地址：

https://huggingface.co/papers/2501.17161

GitHub：

https://github.com/LeslieTrue/SFTvsRL

模型 & 数据：

https://huggingface.co/collections/tianzhechu/sftvsrl-models-and-data-6797ba6de522c7de7fcb80ba

PyTorch研习社

打破知识壁垒，做一名知识的传播者

推荐账号，扫码关注

推荐账号二维码

最新文章

优化AI Agent系统推理能力：探索DeepSeek-R1、OpenAI o1/o3及训练/推理扩展的新路径

以最简单的方式揭秘大模型（LLM）复杂的工作原理

这就是DeepSeek R1能以1/30的成本挑战OpenAI等大厂的底气

性能媲美Deepseek-R1，李飞飞带着仅用1k样本在26分钟内花50美元训练的S1来了

试试这些开源免费的DeepResearch，每月省200刀

强化学习 VS 监督微调：从谷歌这篇论文来看哪种方法能更好地应对未知任务？

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉