WXRedian | 人工智能与量化交易算法知识库 | OpenAI的强化微调：RL+Science 创造新神还是灭霸

2024年12月6号加州时间上午11点，OpenAI 发布了新的Reinforcement Finetuning方法，用于构造专家模型。对于特定领域的决策问题，比如医疗诊断、罕见病诊断等等，只需要上传几十到几千条训练案例，就可以通过微调来找到最有的决策。

数据的形式类似于instructiong tuning的常见形式，有多个选项以及正确选项。同一时间，DeepMind还发布了一个强化微调研究项目，鼓励学者专家们上传自己领域的独特数据，测试他们的强化微调能力。

这个结果很漂亮，用的技术正是已经广泛应用于alignment, math, coding领域的方法，其前身就是Reinforcement learning from human feedback (RLHF). RLHF用来对齐大模型与人类偏好性数据，训练数据的形式为（问题，回答1，回答2，偏好），让用户选择更喜欢的回答，学习人类的偏好，训练奖励模型（reward model）。给定reward model之后，用强化学习算法(PPO, DPO）来微调模型参数，微调后的模型更容易生成用户喜欢的内容。

当求解math和coding问题时，每个问题都有正确答案。这时可以用MCTS等RL方法，生成大量的不同的求解轨迹，有的正确有的错误，用回答正确的轨迹做SFT，或者用（正确解法，错误解法）的组合来做RLHF。更进一步，可以把轨迹生成和RLHF微调这两步迭代起来，不断调整reference policy，迭代不断提高正确率，如GRPo或SPPO等。

OpenAI 的RFT只需要很少数据，就能再一些专家场景中，学会医疗诊断和科学决策，这个方法本质上还是CoT+RL，其中CoT这步可以brainstorm增强生成多样的不同推理路径，然后根据答对没有来进行打分，再继续做RL微调并且迭代。CoT可以是把一系列的科学/医疗常识串联起来。这些常识来自预训练。

难点在于如何定义什么是RL里的state-transition, 也即一步的思维推理。每一步state transition 是大模型已经学到的科学常识，再用RL找到通向高分的完整链路。关键问题是如何做到token-level 和 full-response level RL直接找到平衡点，也即如何描述”state”。token-level的微调效率太低、不容易泛化；full-response level又会迷糊了推理的过程。

更fundamental的问题是：何找到思维链里面的“state”呢，思维的state representation是不是已经在预训练里涌现出来了？有了合适的state representation，RFT就可以easy, stable and robust。

Demo里也能看出这个技术现阶段的局限性。罕见病排查，从医学角度重要，但是确实已知的科学，而且是已知科学问题中最简单的一类。罕见病的诊断往往有清晰的基因指标，和相对流程化的判别路径。之所以能用很少的数据就学会这个诊断过程，是因为很多人类专家任务的know-how其实是简单的决策树，几十个案例就足以囊括底层逻辑。

这类问题本质是多项选择题，只要选择有限，不同选项之间区分度大就很容易掌握。

这个demo还规避了RLHF里最难搞的reward modeling步骤，随便设定一个打分函数就能用，比如正确答案给1分，错误答案0分。

然而真正的科学问题，往往不是有固定选项的选择题，没有标准答案，如何定义action，如何定义问题该怎么问，如何给新的科学概念一个定义一个名字，这才是最高级也最有挑战的科学难题。科学的数据也往往是noisy的，不是简单的多选题，没有清晰的决策树。

讲完了技术的潜力，我们来讨论风险。今天OpenAI发布RFT的同一时间，推出了强化微调研究项目。这个项目邀请全世界的科研人员提供他们领域的决策数据集，让OpenAI 来测试其RFT推理决策能力，不断进化。

然而，看到这个项目的时候，让人冷汗不已。

今年夏天，我参加美国科学院召开的AI for science安全讨论会，包括诺奖获得者David Baker在内的很多研究者也在场。讨论会上，每个人都要回答为什么自己正在开发的AI for science技术是安全的，是可控的、可追踪的。

如果科学这颗宝石，如果都集中在了同一个非开源公司手里，那么我们造出的是新神？还是带上了无限手套的灭霸？

评论：

只要掌握在一个公司手里就不安全，大家都掌握就安全了

普林有做AI4Science的组吗？我们有一些偏计算类的理论物理问题想找人合作。或者说，有没有做类似Alpha proof但不经过中间lean推理的？

“同一时间，DeepMind还发布了一个强化微调研究项目，鼓励学者专家们上传自己领域的独特数据，测试他们的强化微调能力。” 这是哪个项目？

"集中在了同一个非开源公司手里" 不过我觉得就算是掌握在 meta 手里,也不见得是好事. 目前核心目标是增强使用内源性知识的能力, 现在已经过了"LLM 知识够不够"这个阶段了,核心在 LLM 能不能用好知识做推理, 再发展下去, 怕是要设计策略来反攻人类

转载自：OpenAI的强化微调：RL+Science 创造新神还是灭霸 - 王梦迪的文章 - 知乎