中生代大白
读完需要
速读仅需 1 分钟
Jiayi Pan团队的复现过程
项目名称:TinyZero
实验目标:通过强化学习(RL),让基础语言模型在“倒计时”游戏中展现出自我验证和搜索能。
基础模型选择:团队选择了不同参数规模(从0.5B到7B)的Qwen-2.5基础语言模。
强化学习算法:采用R1-Zero算法,给定基础语言模型、提示和真实奖励信号,运行强化学。
实验平台:选择“倒计时”游戏作为实验平台,这是一个考验数字运算能力的游戏,玩家需要利用给定的数字和基本的算术运算来尽可能接近目标数。
模型进化:从最初的简单输出开始,模型逐步进化出自我纠正和搜索的策。例如,模型能够先提出一个解决方案,自我验证这个方案是否正确,如果发现错误,则会进行迭代修改,直到找到有效的解决方。
成本控制:整个实验的成本不到30美元(约217元),使用了2xH200 GPU,每小时6.4美元。
性能表现:从1.5B参数开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分。而0.5B模型仅仅是猜测一个解决方案然后停止。
额外指令微调的非必要性:实验验证了额外的指令微调并非必要,基础模型和指令模型最终能达到相似的性能水平。
强化学习算法的有效性:不同的强化学习算法(如PPO、GRPO、PRIME)都能实现长思维链的涌现。
模型行为的多样性:模型的推理行为会根据任务特点呈现不同特征,例如在倒计时任务中倾向于搜索和自我验证,而在数字乘法任务中则更倾向于问题分析。
复现的局限性与展望尽管Jiayi Pan团队的复现取得了令人瞩目的成果,但目前的验证仅限于“倒计时”游戏,尚未扩展到更通用的推理领域。模型的性能和泛化能力还需要在更多任务和数据集上进行验证。
◆ ◆ ◆ ◆ ◆
往期10万+热文推荐