图片来自网络
研究背景
近年来,基于 Transformer 架构的生成式大语言模型(LLM)让不少人开始相信我们正走在通向通用人工智能的快速通道上。尽管迭代出新的LLM在专业测试集上表现良好,甚至在一系列领域表现已经远超常人,但在可见的未来,它们仍将作为人类解决问题的强大辅助工具而存在。
当前的LLM 技术的主要特点在于其输出质量不稳定、过程质量不易评估。这些特点在输出可靠性要求较高的应用领域(如数学解题、代码生成)便成了技术瓶颈。为了更好地服务于实际应用场景,LLM 的输出不仅应该解决问题(如接触数学问题的正确答案),还需要能够让人易于理解(legibility)。易理解性要求 LLM 的输出能够让人或者其等价的代理智能体能在短时间内快速判断输出结果质量。这一目标与以引导 LLM 自主提升输出质量和可解释性为目标的思维链(chain-of-thought)及基于人类反馈的强化学习机制( reinforcement learning with human feedback) 并不完全一致。有效提升易理解性的机制设计有待探索。
研究方法
来自OpenAI的研究团队围绕 LLM 数学解题这一应用场景,受论证者-验证者博弈(Prover-Verifier Game,简称 PVG)理论[1] 启发,提出了LLM 的易理解性在数学解题方面的实例概念——可检查性(checkability),并分析了论证者-验证者博弈在数学解题场景中的均衡性质。结合理论洞见,他们结合深度学习方法,设计双模型博弈协同优化方案,有效提升了LLM 数学解题输出的易理解性与验证质量。
图1 论证者-验证者博弈示意
在论证者-验证者博弈(PVG)中,论证者从问题域(数学问题集)采样问题作为输入,输出为对于该问题的解题过程及最终答案;验证者负责对论证者的答案正确性进行估计,其目标为正确估计来自论证者的所有解答。论证者的目标取决于其角色设定。角色有两类。一类是助理型论证者(helpful prover),其希望提供正确易懂的解答以供验证者判断;另一类是恶意型论证者(sneaky prover),其希望提供错误解答,并误导验证者的判断。在该模型中,关键假设如下。
1、论证者与验证者属于同一类模型(如 GPT4 家族里的不同模型组成的类);
2、验证者模型尺寸小于论证者模型尺寸(通过尺寸限制验证者模型的判断能力,能反过来迫使论证者输出更易于理解与判断的输出);
3、 尺寸较小的验证者模型能作为人类验证者的有效代理;
4、问题域内的每一个问题对应的标准答案均存在。
基于上述假设,OpenAI 研究团队首先聚焦单轮中论证者-验证者的博弈。为此对该博弈下的易理解性进行理论分析,研究人员提出了易理解性在数学解题场景下的形式化概念:可检查性(checkability)。
可检查性应满足两条性质:完备性(completeness)和可靠性(soundedness)。完备性意味着对问题域中的每个问题,助理型论证者能成功生成正确解答,且验证者也能成功判定该解答的正确性。可靠性意味着对问题域中的每个问题,如果恶意型论证者总能生成错误答案,那么验真者总能判断出该解答的错误。
考虑到可检查性的性质和形式化定义(详见原文)过于严苛,研究人员们提出了两条性质的松弛版本,利用斯塔克尔伯格模型对论证者和验证者的博弈和均衡状态进行了分析。其中,验证者先行,论证者后行。他们利用该理论分析结果作为机制设计指导,结合监督学习及强化学习,将其拓展到论证者与验证者之间的多轮博弈情形。该机制的具体流程如下(每一轮):
1、首先,论证者收集来自(前一轮或预备的)助理型论证者和恶意型论证者所生成的“问题-解答”样本,结合标准答案,利用监督学习优化其解答估计准确率;
2、接着,验证者以同等概率选择其角色设定(这步是通过提示词工程实现的);
3、根据认定的角色,验证者利用本轮的论证者所产生的估计样本进行强化学习训练。其中,当验证在本轮为助理型时,以解答的正确性及合理性打分为其奖励;而当它为恶意型论证者时,则以其解答的错误性及成功误导论证者的成功率为奖励。
最后,OpenAI 的研究者们在实际系统中对该机制的有效性进行了验证,分别评估了验证者以及两类验证者的关键性能指标,尤其是验证者的鲁棒性、论证者输出的易理解性与正确性,以及人类与模型尺寸较小的验证者在判定表现上的一致性。
研究结果
对于单轮双阶段的论证者-验证者博弈,研究人员们在理论上证明了:二者博弈达到均衡的充分必要条件是(两类)验证者与论证者的模型同时满足完备性与可靠性。
该理论结果也指导了研究人员双模型博弈协同优化过程中的奖励及损失函数设计,开发出实用的双模型博弈协同优化方案。通过实验,研究人员发现:
图2 “易理解性税”现象
- 直接提升 LLM的数学解题能力,将导致其输出易理解性下降。通过将其视为论证者、引入验证者模型并利用双模型博弈协同方案优化,LLM 能够在不损失易理解性的前提下,提升其数学解题能力。尽管如此,其与直接提升数学解题能力所获得的性能仍存在约 20%差距。换句话说,我们无法在不降低易理解性的同时完全优化LLM 的数学解题能力——这一现象被称为“易理解性税”(Legibility Tax)。编辑注:这并非意味着这一性能权衡是绝对的,若是通过优化思维链直接提升 LLM 的数学解题能力,再借助另一个模型将其思维链输出转化为易理解的文本,亦是一种潜在的方案,而该方案下,易理解性税是否存在仍有待验证;
- 在论证者与验证者多轮互动后,恶意型论证者在单轮内需要越来越多的强化学习步数才能(以 95%的概率)成功地欺骗验证者。反过来说,利用该博弈优化机制,验证者的鲁棒性得到了有效增强;
- 助理型论证者在多轮互动后,其在每轮内生成的解答样本的通过率逐步提升。在针对人类验证者的测试场景中,这些解答样本的易理解性验证也得到了一致的结果;
- 恶意型论证者在多轮优化后,其在每轮内生成的解答样本在验证者模型(及人类验证者)看来,看似易于理解,却越来越难判断与分辨不合理性。这表明互动博弈不仅提升了验证者及助理型论证者的表现,还增强了恶意型论证者的输出表达多样性。
相关论文
[1] Anil, C., Zhang, G., Wu, Y. and Grosse, R., 2021. Learning to give checkable answers with prover-verifier games. arXiv preprint arXiv:2108.12099.
[2] K., Hendrik, J., Chen, Y., Edwards, H., Leike, J., McAleese, N. and Burda, Y., 2024. Prover-verifier games improve the legibility of LLM outputs. arXiv e-prints, pp.arXiv-2407.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
长按二维码关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济学实验室
微信号 : ncel_cuhk