WizardMath (2023-08)
WizardMath模型的设计理念和训练方法体现了深度学习领域中对于特定领域知识处理的最新进展。下面简要概述一下WizardMath模型的训练流程:
监督式微调:这一阶段主要是让模型学习如何正确地回答数学问题。通过使用GSM8k和MATH数据集,模型首先被训练来生成正确的答案。这一步骤的目的是确保模型能够理解并遵循数学问题的指令,为后续的训练打下基础。
训练指令奖励模型(IRM)和过程监督奖励模型(PRM):在这一阶段,模型开始学习更复杂的概念,即解决问题的过程和质量。IRM评估的是模型生成的指令是否合理,而PRM则关注于解题过程的每一步是否正确。这两者共同作用,使得模型不仅能够给出正确答案,还能够展示出合理的解题过程。
主动Evol-Instruct和PPO训练:这是整个训练流程中的核心部分,旨在通过增加数据量和利用IRM与PRM生成的奖励,进一步优化模型的表现。主动Evol-Instruct意味着模型会主动地去探索和学习,而PPO算法则是一种强化学习技术,它帮助模型在保持当前策略稳定性的同时,逐步改进策略,以获得更高的奖励。
通过这一系列的训练步骤,WizardMath模型能够在数学推理和问题解决方面展现出超越普通语言模型的能力。这种方法不仅适用于数学领域,其原理还可以扩展到其他需要逻辑推理和精确解答的领域,如编程、物理等,为AI在专业领域的应用开辟了新的可能。
就成效而言,WizardMath于GSM8k与MATH上展开了全面的实证研究。研究数据表明,WizardMath在pass@1这一关键指标上,以显著优势超越了全部已公开的大型语言模型竞争对手,并且尤为引人注目的是,在GSM8k的较量中,其表现力压诸多顶级私有模型,诸如ChatGPT-3.5、Claude Instant-1以及PaLM-2等。
具体到成绩细节,WizardMath在GSM8k上的pass@1分数实现了高达24.8%的跃升,而在MATH测试中也录得了9.2%的提升,这些亮眼的数据无疑凸显了它在数学逻辑推演领域的能力。这一系列成果不仅验证了WizardMath的技术先进性,更彰显出其在数学问题解决方面所具备的强大潜能与广阔前景。
Tool-integrated Reasoning Agents (2023-09)
本文着重阐述了ToRA(Tool-Integrated Reasoning Agents)——一系列旨在攻克复杂数学挑战的精心调校大型语言模型。ToRA的创新精髓在于巧妙融合了自然语言的理解推理与外部工具(包括计算库和符号求解器)的应用,旨在汇聚语言模型的解析智慧与工具的高效运算能力。采用此类集成策略,ToRA成功地在多项数学推理评测数据集上达成了性能的飞跃式增长,彰显了其在数学问题解决领域的卓越成效。
ToRA的训练过程包括两个关键步骤:首先,通过模仿学习(imitation learning)来训练模型,使其能够生成与工具交互的推理轨迹;其次,通过输出空间塑形(output space shaping)来进一步优化模型的推理行为。这一过程主要是从高质量的注释中学习,并在模型生成的输出中引入多样性,同时纠正错误的工具使用行为。
实验评估环节中,ToRA被置于涵盖从基础算数至竞赛级难题的十个数学推理数据集的考验下。实验数据揭示,相较于当前公开可用的模型,ToRA模型展现出卓越优势,在各项数据集上实现了13%至19%的平均绝对性能提升。尤为突出的是,ToRA-7B在高难度的MATH数据集上的成绩,较之先前最优的开源模型WizardMath-70B提升了整整22个百分点。此外,ToRA-CODE-34B版本则在准确度上突破50%大关,其解决编程问题的能力与GPT-4旗鼓相当,彰显出不俗的实力。
OpenMathInstruct (2024-02)
OpenMathInstruct-1,由NVIDIA研发团队倾力打造,是一款专注于数学指令调优的大型数据集,其内含180万对数学题目与解答,旨在强化开源大型语言模型(LLMs)的数学推理技能。此数据集采纳了最新推出的Mixtral模型作为基石,该模型以其在数学推理任务上的优异表现及开放友好的许可条款而著称。
项目组凭借新颖的提示技巧与扩充手段,成功合成出自GSM8K与MATH两大权威数学推理评测集的解答方案,为数据集构建提供了坚实支撑。其巅峰之作——OpenMath-CodeLlama-70B模型,在GSM8K与MATH的考核中,交出了与业界翘楚gpt-distilled模型不分伯仲的亮眼成绩单。
从方法论视角审视,团队运用了few-shot prompting策略来生成解答,并辅以多样化提示手法以拓宽训练集的范围。值得一提的是,通过实践他们发现,采用掩码文本解答的提示方式对提升MATH评测集的覆盖度起到了显著的推动作用。
文章还强调了数据集后处理的重要性,包括修正语法噪声和精心选择数据集的策略。研究发现,优先选择代码解决方案可以提高模型性能。
实证分析揭示,OpenMathInstruct-1在模型能力的增强上扮演着核心角色。相较于现行的gpt-distilled模型,经OpenMath优化后的模型,在一系列数学推理挑战中,展现出了匹敌乃至超越前者的卓越表现。
GPT-4 Code Interpreter (2023-07)
本文彰显了GPT-4 Code Interpreter在应对数学挑战时的卓越实力,其根源在于它不仅擅长创制并运行代码,还能在遭遇不合逻辑的输出时灵活调整策略。受此启发,学者们构想出一种创新方案,被命名为显式基于代码的自我验证(CSV)技术,通过零样本提示鼓励模型使用代码自我验证答案。当验证状态为“False”时,模型会自动修正其解决方案,类似于数学考试中纠正错误的过程。
此外,研究者还发现验证结果的状态可以指示解决方案的可信度,这有助于提高多数投票法的有效性。通过结合GPT-4 Code Interpreter和CSV,研究者在MATH数据集上实现了令人印象深刻的零样本准确率提升,从53.9%提高到84.3%。
ChatGLM-Math(2024-05)
目前,提高 LLM 数学问题解决能力的方法往往会导致其他方面能力的下降。比如,RLHF方法,虽然可以提高文本生成的质量,但却会忽略解决数学问题所需要的准确性和逻辑连贯性,而 SFT 微调,则可能降低大模型本身的语言多样性。ChatGLM-Math运用了一种「Self-Critique」的迭代训练方法,通过自我反馈的机制,使 LLM 的语言能力和数学能力得到同步提升。
Self-Critique 有三个步骤:
1)Math-Critique
Math-Critique 将根据问题和参考答案,对模型生成的数学响应进行评分,并给出评分的解释。
2)Critique-RFT
研究者使用了基于 Math-Critique 的拒绝采样方法,重新审查和重新设计了RFT的实现,并发现在拒绝采样过程中,采样范围和模型都会影响结果。
3)Critique-DPO
研究者采用了DPO方法,以进一步增强模型能力,遵循Critique-RFT。该方法的主要优点在于在构建数据流、稳定性和训练速度方面的简单性。DPO方法直接比较了相同问题的正确和错误答案。
此外,研究者还开发了一个MathUserEval 评测基准,专门用于评估 LLM 解决实际应用场景中的复杂开放性数学问题的能力。测试结果如下:
关于互联网持续学习圈
参考文献