强大推理背后的危机：PRMBench 揭示过程级奖励模型的潜在缺陷！

教育 2025-01-08 21:13 江苏

导语：最近，模型在长序列下的推理能力得到了大幅加强，出现了诸如o1，Gemini-thinking等强力多步推理模型。在这个过程中，过程级奖励模型（PRMs）是驱动大语言模型（LLMs）进行复杂推理和决策的关键“幕后功臣”。然而，它们真的足够可靠吗？一项最新研究表明，现有 PRMs 在识别推理过程中的细微错误方面存在显著不足，甚至不如随机猜测！

标题： PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
📄 论文： https://arxiv.org/abs/2501.03124
🌐 项目： https://prmbench.github.io/
💻 代码: https://github.com/ssmisya/PRMBench
📊 数据集: https://huggingface.co/datasets/hitsmy/PRMBench_Preview
单位： 复旦大学、苏州大学、上海人工智能实验室、石溪大学、香港中文大学

作者：宋明阳
编辑：「深度学习自然语言处理」公众号

近年来，大型语言模型（LLMs）在数学、代码生成等复杂推理任务中表现出惊人的能力，这很大程度上归功于过程级奖励模型（PRMs）的加持。PRMs 负责评估推理过程中的每一步是否正确和有效，从而引导 LLMs 的学习方向。然而，一个关键的问题是：我们如何准确评估 PRMs 本身的性能？

目前的主流评估方法往往侧重于最终结果的正确性，而忽略了对推理过程中细致入微的错误类型的识别。例如，一个推理步骤可能存在冗余、部分正确、甚至完全错误等多种状态，简单的“正确/错误”标签难以捕捉其复杂性。

为了解决这一问题，复旦大学，苏州大学，上海人工智能实验室，石溪大学，香港中文大学等联合提出了 PRMBench，一个专门为评估 PRMs 的精细化且极具挑战性的基准。这项研究深入剖析了现有 PRMs 的“软肋”，为未来研究指明了方向。

图1. PRMBench的主要结构，图的左侧部分展示了数据整理的流程；右侧部分展示了评估主题的示例以及测试模型的相对性能表现

PRMBench：一次针对 PRMs 的“全方位体检”

PRMBench 并非简单的“升级版”评估数据集，而是一套经过精心设计的“体检方案”，旨在全面考察 PRMs 在不同维度上的能力。

PRMBench的特点

海量且精细的标注数据： PRMBench 包含 6,216 个精心设计的问题，并包含 83,456 个步骤级别的标签，确保评估的深度和广度。
多维度、多层次的评估体系： PRMBench 从简洁性 (Simplicity)、合理性 (Soundness) 和敏感性 (Sensitivity) 三个主要维度出发，
进一步细分为九个子类别，例如非冗余性、非循环逻辑、评价合理性、步骤一致性、领域一致性、置信度不变性、前提条件敏感性、
欺骗抵抗和一题多解一致性，力求全面覆盖 PRM 可能遇到的挑战。
揭示现有 PRMs 的“盲区”： 研究团队对 15 个代表性模型进行了广泛的实验，包括开源 PRMs 以及将强力通用语言模型提示作为 Critic Model 的模型。实验结果令人惊讶，也引人深思。

本文的主要发现有

整体表现堪忧： 即使是表现最佳的模型 Gemini-2-Thinking，其 PRMScore 也仅为 68.8，勉强高于随机猜测的 50.0。这表明，即使是最先进的 PRMs，在多步过程评估中仍然有巨大的提升空间。
开源 PRMs 表现更弱： 开源 PRMs 的平均 PRMScore 更低至 50.1，部分模型甚至不如随机猜测，揭示了其可靠性和潜在训练偏差的问题。
“简洁性”成最大挑战： 在 “简洁性” 维度上，即使是表现相对较好的 ReasonEval-34B，其 PRMScore 也骤降至 51.5，表明 PRMs 在识别推理过程中的冗余步骤方面能力不足。
“阳性偏好”现象显著： 部分模型，例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B，在评估中表现出显著的“阳性偏好”，难以区分正确和错误的步骤。
数据驱动的洞察： 研究发现，错误步骤出现的位置也会影响 PRMs 的判断准确率。总的来说，随着错误步骤位置的后移，PRMs 的表现会逐渐提升。

1. 提出主要问题

在一项需要举出反例的证明题实践中，我们观察到一个有趣的现象：即使大语言模型 (o1) 自身意识到当前推理过程存在一些问题，仍然会产生错误的推理步骤。更令人担忧的是，当我们调用现有的过程级奖励模型 (PRMs) 去检测刚刚 o1 生成的推理过程时，结果却发现 多数 PRMs 无法检测出这种细粒度的错误。这一发现引出了一个关键问题：当前的 PRM 是否具备检测推理过程中细粒度错误的能力？

然而现有针对PRM评测而设计的benchmark大多仅仅关注步骤评判的对错，而忽视步骤评判的错误类型，缺乏对错误类型的细致分类。这也就意味着目前缺少这样能够评测PRM在细粒度错误上表现的综合benchmark。而这，正是我们推出 PRMBench 这一精细化基准的根本原因。我们希望通过 PRMBench，打破现有评估的局限，真正遴选出能够有效识别细粒度错误的“优秀” PRM。

2. PRMBench 构建

数据来源：基于 PRM800K 构建，首先筛选出其完全正确的问题、答案以及解题步骤作为我们的元数据。

错误引入： 针对多数评测主题（前8个）使用 LLMs（特别是 GPT-4o）将各种细粒度的错误引入到完全正确的解题推理步骤中。对于一题多解的情况则使用多步推理增强过的语言模型为同一问题生成不同的正确解法及其推理步骤。

人工验证： 严格的人工审查，以确保引入错误的质量和相关性。

数据集统计： 包含 6,216 个精心设计的问题，带有 83,456 个步骤级别的标签。

评估对象： 分为三个主要领域

简洁性 (Simplicity)： 评估冗余检测能力（非冗余性、非循环逻辑）。
合理性 (Soundness)： 评估PRM产生奖励的准确性和正确性（评价合理性、步骤一致性、领域一致性、置信度不变性）。
敏感性 (Sensitivity)： 评估对变化和误导性信息的鲁棒性（前提条件敏感性、欺骗抵抗、多解一致性）。

3. 实验与结果

评估模型：测试了 15 个模型，包括开源 PRMs (Skywork-PRM, Llemma-PRM, MATHMinos-Mistral, MathShepherd-Mistral, RLHFlow-PRM) 和提示为Critic Models的优秀闭源语言模型 (GPT-4o, o1-mini, Gemini-2)。

评估指标：

负 F1 分数 (Negative F1 Score)： 评估错误检测性能的主要指标。
PRMScore： 将 F1 和负 F1 相结合的统一、标准化的分数，以反映整体能力。

主要发现：

PRMs 表现不佳： 总的来说，PRMs 在多步过程评估中表现出有限的能力，其得分通常仅略高于随机猜测。
开源模型落后： 开源PRM的表现通常不如将强力通用语言模型（如o1, Gemini-thinking等）提示为Critic Model的表现更好。
简洁性或成最大挑战： 相较于其他评测主题，检测冗余 (简洁性) 被证明对 PRMs 来说尤其困难。

4. 其他分析

“正确标签偏好”： 许多 PRMs 表现出对正确标签的偏好，难以正确识别错误标签测试样例（阴性数据）。

表3. PRMBench 下模型对于正确标签测试样例（阳性数据）和错误标签测试样例（阴性数据）的得分对比及相似度

错误位置的影响： PRM 的性能往往会随着推理步骤位于推理链中的位置逐渐靠后而提高。

少样本 ICL 的影响有限： 在reward过程中使用不同数量示例的 In-Context Learning 对闭源模型的性能影响不大。

表4. 不同Few shot数目对于提示为 Critic Model 的通用语言模型表现影响

5. 结语

PRMBench 的发布，不仅仅是一个新的基准，更是一声警钟，提醒我们重新审视现有 PRMs 的能力边界。

研究的意义与展望：

推动 PRM 评估研究的进步：PRMBench 提供了一个更全面、更精细化的评估工具，可以更有效地识别 PRMs 的潜在缺陷，促进相关算法的改进。
指导未来 PRM 的开发方向：通过揭示现有 PRMs 在不同维度上的优缺点，PRMBench 为未来 PRM 的设计和训练提供了重要的参考。
助力构建更可靠的 AI 系统：更可靠的 PRMs 将有助于提升 LLMs 在复杂推理任务中的表现，最终构建更加值得信赖的人工智能系统。

“我们希望 PRMBench 能够成为推动 PRM 评估和发展研究的坚实基石。” 研究团队表示。

立即探索 PRMBench：
论文：https://arxiv.org/abs/2501.03124
主页：https://PRMBench.github.io/
关键词：奖励模型，过程级奖励模型，大语言模型，基准测试，人工智能，深度学习，模型评估，错误检测

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

深度学习自然语言处理

一个热衷于深度学习与NLP前沿技术的平台，期待在知识的殿堂与你相遇~

最新文章

聊聊PRM（过程奖励模型）

2024 年度总结 LLM System Research：过去半年的科研心路历程

强大推理背后的危机：PRMBench 揭示过程级奖励模型的潜在缺陷！

Virgo：类o1多模态大模型的初步探索

24届毕业生聊PhD就业，国内or国外、学术界or工业界or创业

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

博士生罢工、工资上涨、学术头秃：PI生存指南

[vLLM vs TensorRT-LLM]：动态序列长度场景对比

图解Megatron TP中的计算通信overlap

从infra的视角聊聊DeepSeek-V3

手写self-attention的四重境界 self-attention

o1类大模型的过度思考: 2+3=？

2024年RAG：回顾与展望

Building effective agents笔记

微软公布OpenAI闭源模型参数！4o-mini 8B！

NICE42期 | 语言模型不听话怎么办？关于格式忠实性的探索

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

DeepSeek-V3技术报告解读

《大语言模型》：人工智能时代的知识盛宴，大模型中文书籍震撼发售！

OpenAI-o3 与 Monte-Carlo 思想

NICE41期 | 大模型评估的新视角：理论指标创新与下游任务应用分享

让Agent"少说废话"！打造高效的LLM多智能体系统

游凯超：我与vLLM的2024，很Passion！

最新RAG综述：15种经典RAG框架综述（上）

最新RAG综述：15种经典RAG框架综述（下）

LLM实践--支线：分布式训练框架的编程基础

NICE40期 | 自动生成模型卡与数据卡：迈向负责任的人工智能

刘鹏飞老师组研发PC Agent，让 AI 替你熬夜做 PPT

LLM，一艘方向不对但积重难返的华丽游轮...

o1复现的一点点心得

深度学习工作：从追求 SoTA 到揭示新现象

大模型推理张量并行的4种模式

百度&人大：长文本LLM全排序能力新方法

212页PPT：大模型时代的具身智能

RWKV-7：极先进的大模型架构，长文本能力极强

今天Qwen2.5技术报告发布啦！

Anthropic: 预训练阶段引入人类反馈更安全

图解OpenRLHF中基于Ray的分布式训练流程

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

实践指南: hzwer大佬的模型优化与迭代策略

如何用一个统一的视角，分析RLHF下的各种算法？

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

只要捞"偏门"，篇篇都是顶会顶刊！

圆桌会 | 荣幸邀请到Meta、OSU、哈佛&MIT学者来分享Agent前沿~

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

模仿、探索与自我提升：慢思考推理系统的复现之路

大模型Infra王朝2024

今晚8:30，荣幸邀请到电影导演和LLM科学家一起聊聊对多模态的见解

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

如何增强大模型推理？Meta最新提出《大型概念模型》在句子表示空间中的语言建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉