来自 Google DeepMind 的最新论文展示了强化学习(RL)和监督微调(SFT)在不同任务中的表现差异。实验表明,RL 在跨领域的泛化能力上表现优异,而 SFT 更倾向于记忆训练数据,导致它在训练集外的任务上表现不佳。
🔑 RL 的优势:跨领域泛化,能学习普适原则。
💻 SFT 的局限性:容易记忆训练数据,难以应对 OOD 任务。
⚙️ Reject Sampling 的作用:优化 RL 性能,提升泛化能力。
📈 性能提升:基于 RL 的训练流程在验证和任务适应性上表现突出。
📊 实验设置与任务
模型与任务:
Llama-3.2-Vision-11B:这是一个大规模的多模态模型,结合了视觉和语言处理能力。
任务:包括 GeneralPoints(文本/视觉算术游戏)和 V-IRL(真实世界的机器人导航任务)。
实验流程:
SFT-only:仅使用监督微调进行训练。
RL-only:仅使用强化学习进行训练。
SFT→RL:先通过SFT进行初始化,再使用RL进行训练。
RL变体:不同的验证轮数(1/3/5/10)使用 Reject Sampling 进行选择性训练。
🔍 实验评估
性能评估指标:
训练集内表现(ID) vs 训练集外表现(OOD),这对比了模型在已知与未知任务中的能力。
消融实验:
RL 直接应用于未经过 SFT 初始化的 Llama-3.2:测试了 RL 训练直接在基础模型上进行的效果。
SFT 过拟合测试:测试了极端的SFT过拟合情境。
计算成本与性能对比:评估了不同训练流程的计算成本以及带来的性能提升。
📚 主要发现与洞见
奖励机制的作用:
基于结果的奖励:结果导向的奖励策略在强化学习训练中起到了关键作用,能够显著提高模型的泛化能力。
规则任务的强化学习泛化能力:强化学习能够在规则任务中提炼出普适原则,成功地在不同领域进行迁移。
SFT 的局限性:
SFT 倾向于记忆:监督微调在训练时更容易“记住”任务规则,而不是学到具有更广泛适应性的知识,这导致SFT在面对训练集外的任务时表现较差。
RL 的跨领域泛化能力:强化学习展现出较强的跨领域泛化能力,能够学习到更通用的策略。
RL 在实际应用中的优势:
RL 的验证与拒绝采样:采用多轮验证和 Reject Sampling 技术时,模型的泛化能力有了大幅提升,最高可达到约6%的性能提升。
🚀 关键结论
SFT 在训练集内表现优秀,但难以应对未知任务,容易出现过拟合。
RL 通过结果导向的奖励机制和跨领域学习能力,能更好地应对变化的任务,展示出优越的泛化性能。
💡 结论与启示
SFT 和 RL 的互补性:SFT 对于模型的初步训练是必须的,特别是在基础模型无法根据指令进行任务时。然而,RL则能为模型带来更强的泛化能力,尤其是在面对跨领域任务时。
未来研究方向:
结合 SFT 和 RL 的优势,开发更强大的模型训练方法,以充分发挥两者的潜力。
通过这篇论文,研究人员揭示了 SFT 和 RL 在任务泛化上的根本差异,为未来的多任务模型训练提供了有价值的参考。
论文地址:
https://huggingface.co/papers/2501.17161
GitHub:
https://github.com/LeslieTrue/SFTvsRL
模型 & 数据:
https://huggingface.co/collections/tianzhechu/sftvsrl-models-and-data-6797ba6de522c7de7fcb80ba