提升大模型推理能力的路径探索

文摘   科技   2024-10-22 11:01   广东  

作者:孙晨曦



(图片来自网络)

研究背景

近年来,大语言模型在众多任务中的卓越表现引起了广泛的关注。然而,尽管大模型在一系列自然语言任务中取得了显著的成功,他们的推理能力仍有限,且无法仅通过增加模型规模来克服。为此如何提升大模型的推理能力,已成为学术界和工业界广泛关注的课题。

大模型推理的一些关键思想

中间步骤(intermediate steps)

Ling 等人 2017 年在 DeepMind 开创性地使用自然语言原理解决数学问题,即“通过一系列小步骤得出最终答案”。从头开始训练序列到序列模型。 Ling 等人 2017 年的工作之后,Cobbe 等人 2021 年在 OpenAI 构建了一个更大的数学应用题数据集 (GSM8K),其中包含自然语言原理,并用它来微调 GPT32022Wei等人探索了如何通过生成思路链(一系列中间推理步骤)显著提高大型语言模型执行复杂推理的能力。具体来说,他们展示了这种推理能力是如何通过一种称为思路链提示的简单方法在足够大的语言模型中自然产生的,其中提供了一些思路链演示作为提示的示例。对三个大型语言模型的实验表明,思路链提示可以提高一系列算术、常识和符号推理任务的性能,实验结果如图2所示。这一系列工作表明,无论是训练、微调还是提示,当提供包含中间步骤的示例时,LLM 将生成同样包含中间步骤的响应。

图1:思维链提示实验效果对比


自洽性(self-consistency

与贪婪解码只返回单一结果不同,这种基于自洽性思想设计的解码方法能够生成多个解码结果(即不同的推理路径),再通过投票从这些结果中选取最自洽(答案一致)的作为最终回答。如图2所示,Wang等人提出的方案主要包含3个步骤:1)使用链式思维(CoT)提示来提示大语言模型;2)用从大语言模型的解码器中采样替代链式思维提示中的贪婪解码,以生成多样化的推理路径;3)选择最终答案集中最一致的(出现最多的)作为最终输出。

图2:自洽性解码策略

广泛实证评估表明,自洽性大幅提升了链式思维提示在多个常用的算术和常识推理基准上的表现,包括GSM8K(+17.9%)、SVAMP(+11.0%)、AQuA(+12.2%)、StrategyQA(+6.4%)以及ARC-challenge(+3.9%)如图3所示,该方法在PaLM/PaLM2上可以显著提高的模型回答准确率。

图3:不同方法在GSM8K上的评测结果对比。

总结


生成中间步骤能够显著提升大型语言模型(LLM)的性能,具体可以通过在训练、微调或提示中引入中间步骤来实现。此外,零样本学习、类比推理以及特殊解码方式也能进一步增强模型的推理能力。研究还表明,模型的自洽性在逐步推理中起到了关键作用,能够有效提高推理的准确性。然而,大模型推理能力仍存在一些局限性,包括引入无关上下文会干扰模型性能、模型的自我纠错能力有限,以及前提顺序对推理结果的影响等。


参考文献

[1] Ling, W., Yogatama, D., Dyer, C., & Blunsom, P. (2017). Program induction by rationale generation: Learning to solve and explain algebraic word problems. arXiv preprint arXiv:1705.04146.

[2] Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., ... & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.

[3] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022

[4] Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.

[5] Xuezhi Wang and Denny Zhou. Chain-of-Thought Reasoning Without Prompting. arXiv preprint arXiv:2402.10200 (2024).

写在最后

我们的文章可以转载了呢~欢迎转载转发

想了解更多前沿科技与资讯?

点击上方入口关注我们!

欢迎点击右上方分享到朋友圈

香港中文大学(深圳)

网络通信与经济实验室

微信号 : ncel_cuhk


网络通信与经济
介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学(深圳)网络通信与经济学实验室
 最新文章