OpenAI的强化微调：RL+Science 创造新神还是灭霸？

科技 2024-12-08 21:02 广东

SmartFlowAI

点击上方蓝字关注我们

本文转载自知乎，作者：王梦迪
全文约 2100 字，预计阅读时间 6 分钟

2024 年 12 月 6 号加州时间上午 11 点，OpenAI 发布了新的 Reinforcement Finetuning 方法，用于构造专家模型。对于特定领域的决策问题，比如医疗诊断、罕见病诊断等等，只需要上传几十到几千条训练案例，就可以通过微调来找到最有的决策。

数据的形式类似于 instructiong tuning 的常见形式，有多个选项以及正确选项。同一时间，OpenAI 还发布了一个强化微调研究项目，鼓励学者专家们上传自己领域的独特数据，测试他们的强化微调能力。

这个结果很漂亮，用的技术正是已经广泛应用于 alignment, math, coding 领域的方法，其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据，训练数据的形式为（问题，回答 1，回答 2，偏好），让用户选择更喜欢的回答，学习人类的偏好，训练奖励模型（reward model）。给定 reward model 之后，用强化学习算法 (PPO, DPO）来微调模型参数，微调后的模型更容易生成用户喜欢的内容。

当求解 math 和 coding 问题时，每个问题都有正确答案。这时可以用 MCTS 等 RL 方法，生成大量的不同的求解轨迹，有的正确有的错误，用回答正确的轨迹做 SFT，或者用（正确解法，错误解法）的组合来做 RLHF。更进一步，可以把轨迹生成和 RLHF 微调这两步迭代起来，不断调整 reference policy，迭代不断提高正确率，如 GRPo 或 SPPO 等。

OpenAI 的 RFT 只需要很少数据，就能再一些专家场景中，学会医疗诊断和科学决策，这个方法本质上还是 CoT+RL，其中 CoT 这步可以 brainstorm 增强生成多样的不同推理路径，然后根据答对没有来进行打分，再继续做 RL 微调并且迭代。CoT 可以是把一系列的科学 / 医疗常识串联起来。这些常识来自预训练。

难点在于如何定义什么是 RL 里的 state-transition, 也即一步的思维推理。每一步 state transition 是大模型已经学到的科学常识，再用 RL 找到通向高分的完整链路。关键问题是如何做到 token-level 和 full-response level RL 直接找到平衡点，也即如何描述”state”。token-level 的微调效率太低、不容易泛化；full-response level 又会迷糊了推理的过程。

更 fundamental 的问题是：如何找到思维链里面的 “state” 呢，思维的 state representation 是不是已经在预训练里涌现出来了？有了合适的 state representation，RFT 就可以 easy, stable and robust。

Demo 里也能看出这个技术现阶段的局限性。罕见病排查，从医学角度重要，但是确实已知的科学，而且是已知科学问题中最简单的一类。罕见病的诊断往往有清晰的基因指标，和相对流程化的判别路径。之所以能用很少的数据就学会这个诊断过程，是因为很多人类专家任务的 know-how 其实是简单的决策树，几十个案例就足以囊括底层逻辑。

这类问题本质是多项选择题，只要选择有限，不同选项之间区分度大就很容易掌握。

这个 demo 还规避了 RLHF 里最难搞的 reward modeling 步骤，随便设定一个打分函数就能用，比如正确答案给 1 分，错误答案 0 分。

然而真正的科学问题，往往不是有固定选项的选择题，没有标准答案，如何定义 action，如何定义问题该怎么问，如何给新的科学概念一个定义一个名字，这才是最高级也最有挑战的科学难题。科学的数据也往往是 noisy 的，不是简单的多选题，没有清晰的决策树。

讲完了技术的潜力，我们来讨论风险。今天 OpenAI 发布 RFT 的同一时间，推出了强化微调研究项目。这个项目邀请全世界的科研人员提供他们领域的决策数据集，让 OpenAI 来测试其 RFT 推理决策能力，不断进化。

然而，看到这个项目的时候，让人冷汗不已。

今年夏天，我参加美国科学院召开的 AI for science 安全讨论会，包括诺奖获得者 David Baker 在内的很多研究者也在场。讨论会上，每个人都要回答为什么自己正在开发的 AI for science 技术是安全的，是可控的、可追踪的。

如果科学这颗宝石，如果都集中在了同一个非开源公司手里，那么我们造出的是新神，还是带上了无限手套的灭霸？

作者介绍

王梦迪现任普林斯顿大学电子与计算机工程系终身教授，并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。王梦迪曾先后在 Google DeepMind、高等研究院与 Simons 研究院担任访问学者，并荣获 MIT TR35、美国国家科学基金会（NSF）事业奖、Google 学者奖等多项荣誉。2024 年 7 月，她获颁 AACC Donald Eckman 奖，以表彰其在控制与动态系统、机器学习及信息论交叉领域所作出的杰出贡献。

原文链接：

https://zhuanlan.zhihu.com/p/11273216258

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

具身智能的数据采集主流路径

Huggingface发布近三年最受喜爱和下载量最多的模型榜单

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像