强化学习 VS 监督微调:从谷歌这篇论文来看哪种方法能更好地应对未知任务?

文摘   2025-02-05 11:02   安徽  

来自 Google DeepMind 的最新论文展示了强化学习(RL)和监督微调(SFT)在不同任务中的表现差异。实验表明,RL 在跨领域的泛化能力上表现优异,而 SFT 更倾向于记忆训练数据,导致它在训练集外的任务上表现不佳。

  • 🔑 RL 的优势:跨领域泛化,能学习普适原则。

  • 💻 SFT 的局限性:容易记忆训练数据,难以应对 OOD 任务。

  • ⚙️ Reject Sampling 的作用:优化 RL 性能,提升泛化能力。

  • 📈 性能提升:基于 RL 的训练流程在验证和任务适应性上表现突出。



📊 实验设置与任务

  1. 模型与任务

  • Llama-3.2-Vision-11B:这是一个大规模的多模态模型,结合了视觉和语言处理能力。

  • 任务:包括 GeneralPoints(文本/视觉算术游戏)和 V-IRL(真实世界的机器人导航任务)。

  • 实验流程

    • SFT-only:仅使用监督微调进行训练。

    • RL-only:仅使用强化学习进行训练。

    • SFT→RL:先通过SFT进行初始化,再使用RL进行训练。

    • RL变体:不同的验证轮数(1/3/5/10)使用 Reject Sampling 进行选择性训练。


    🔍 实验评估

    • 性能评估指标

      • 训练集内表现(ID) vs 训练集外表现(OOD),这对比了模型在已知与未知任务中的能力。

    • 消融实验

      • RL 直接应用于未经过 SFT 初始化的 Llama-3.2:测试了 RL 训练直接在基础模型上进行的效果。

      • SFT 过拟合测试:测试了极端的SFT过拟合情境。

      • 计算成本与性能对比:评估了不同训练流程的计算成本以及带来的性能提升。


    📚 主要发现与洞见

    1. 奖励机制的作用

    • 基于结果的奖励:结果导向的奖励策略在强化学习训练中起到了关键作用,能够显著提高模型的泛化能力。

    • 规则任务的强化学习泛化能力:强化学习能够在规则任务中提炼出普适原则,成功地在不同领域进行迁移。

  • SFT 的局限性

    • SFT 倾向于记忆:监督微调在训练时更容易“记住”任务规则,而不是学到具有更广泛适应性的知识,这导致SFT在面对训练集外的任务时表现较差。

    • RL 的跨领域泛化能力:强化学习展现出较强的跨领域泛化能力,能够学习到更通用的策略。

  • RL 在实际应用中的优势

    • RL 的验证与拒绝采样:采用多轮验证和 Reject Sampling 技术时,模型的泛化能力有了大幅提升,最高可达到约6%的性能提升。


    🚀 关键结论

    • SFT 在训练集内表现优秀,但难以应对未知任务,容易出现过拟合

    • RL 通过结果导向的奖励机制和跨领域学习能力,能更好地应对变化的任务,展示出优越的泛化性能


    💡 结论与启示

    1. SFT 和 RL 的互补性:SFT 对于模型的初步训练是必须的,特别是在基础模型无法根据指令进行任务时。然而,RL则能为模型带来更强的泛化能力,尤其是在面对跨领域任务时。

    2. 未来研究方向

    • 结合 SFT 和 RL 的优势,开发更强大的模型训练方法,以充分发挥两者的潜力。


    通过这篇论文,研究人员揭示了 SFT 和 RL 在任务泛化上的根本差异,为未来的多任务模型训练提供了有价值的参考。



    论文地址:

    https://huggingface.co/papers/2501.17161

    GitHub:

    https://github.com/LeslieTrue/SFTvsRL

    模型 & 数据:

    https://huggingface.co/collections/tianzhechu/sftvsrl-models-and-data-6797ba6de522c7de7fcb80ba




    PyTorch研习社
    打破知识壁垒,做一名知识的传播者
     推荐账号,扫码关注
    推荐账号二维码
     最新文章