为什么提示词总出错?使用思维链(CoT)提升效果高达 78%!

科技   2024-12-27 18:00   山西  

-推荐关注-

-正文-

目录:

  • 什么是思维链(CoT)
  • 思维链(CoT)的表现
  • CoT提示的工作原理
  • CoT的局限性
  • 什么是零样本-CoT(Zero-Shot-CoT)
  • 零样本-CoT的表现

-- 领取学习资料大礼包,有兴趣见文末

思维链(Chain of Thought, CoT)提示是由谷歌研究团队在2022年提出的一种创新方法,用于提升大语言模型在复杂推理任务中的表现。思维链通过在提示中嵌入中间推理步骤,使模型能够以逐步推理的方式解决问题,显著改善了模型在数学、常识和符号推理等任务上的表现。

现在(2024年末),随着大模型能力的显著增强,许多简单任务即便不使用显式的思维链提示,模型也能直接输出正确答案,但是对于复杂的推理,CoT的效果还是非常突出

论文:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》

https://arxiv.org/abs/2201.11903v6

什么是思维链(CoT) 

2022年,Google探索了提示词由三元组⟨输入、思维链、输出⟩ 组成,语言模型在推理任务中的能力

思维链指的是一系列中间自然语言推理步骤,这些步骤最终导向最后的输出。这种方法称为基于思维链的提示(Chain-of-Thought Prompting)

如:

一般的少样本提示:

提示词中有1个示例

问 :小明有5个网球,他又买了2罐网球,每罐有3个网球。他现在有多少个网球?
答 :11个

问 :自助餐厅有23个苹果,如果他们用20个做午餐,再买6个,他们有多少个苹果?

思维链提示:

提示词中有1个示例,并且示例中有思维链过程

问 : 小明有5个网球,他又买了2罐网球,每罐有3个网球。他现在有多少个网球?
答 :罗杰从5个球开始。2罐3个网球,每罐6个。5+6=11。答案是11.

问 : 自助餐厅有23个苹果,如果他们用20个做午餐,再买6个,他们有多少个苹果?

通过提供一些示例(或范例),其中推理过程被明确展示,LLM学会在其响应中包含推理步骤。这种结构化思考方法通常会导致更准确的结果。

少样本提示,见:怎么说大模型才会听 :提示工程神器 之 少样本提示(Few-Shot Prompting)

以下示例 阐明了标准的少样本提示(左侧)与 CoT 提示(右侧)之间的差异。虽然传统方法直接走向解决方案,但 CoT 引导模型展示其推理过程,通常导致更准确和可解释的结果。

图1

思维链(CoT)的表现 

三个大型语言模型上的实验表明,思维链提示提高了在一系列算术、常识和符号推理任务上的性能。增益是显著的。

例如,仅用八个思维链示例对 PaLM 540B 进行提示,就能在数学应用题的 GSM8K 基准测试中达到最先进的准确度,甚至超越经过验证的微调 GPT-3,见图2

图2

论文时间是2023年1月,基于当时的表现,CoT的成绩是非常突出的

PaLM(Pathways Language Model)是谷歌大型语言模型,最新版本是PaLM 2,在Google I/O 2023大会上发布,与GPT4对标

仅依靠提示的方法来提升推理性能很重要,因为它不需要大规模的训练数据集,并且单个模型可以在不失去一般性的情况下执行许多任务。

这项工作强调了大型语言模型如何通过少量关于任务的自然语言数据示例进行学习来提升性能(与通过大规模训练数据集自动学习输入和输出的模式相对照)

CoT提示的工作原理 

  • 分解问题:CoT 提示引导模型将复杂问题分解为可管理的步骤,类似于人类解决问题的方式。

  • 以示例为指导:链式思维使用展示推理步骤的例子,帮助模型理解达到正确答案所需的方法。


CoT 提示在结构化推理至关重要的任务中尤其有价值:

  • 数学和算术:思维链(CoT)通过逐步指导计算,帮助解决多步骤文字题。

  • 常识性和符号推理:在需要常识或符号推理的任务中,CoT可以弥合事实与逻辑之间的鸿沟。

  • 复杂决策过程:在机器人等领域,CoT使模型能够按照逻辑步骤执行决策任务。

CoT的局限性 

CoT 在较小的模型或性能较差的模型下,如果编写了不合逻辑的思维链,这会导致了比标准提示更差的准确性。


思维链(CoT)提示是少样本提示(Few-Shot Prompting)的一个实例,通过将少量示例中的答案修改为一步一步的答案,提出一个简单的解决方案,实现了显著的性能提升。

它允许模型在没有额外训练数据的情况下有效地执行复杂推理任务。在“大”模型(例如,参数超过 1000 亿的模型)中,这些结构化推理提示尤其显著,它们在遵循这些提示时展现出强大的推理能力。


这种性能提升是在少样本提示(Few-Shot Prompting)下的效果,属于 Few-Shot-CoT,那么在零样本提示(Zero-Shot Prompting)下应该怎么做思维链提示?


什么是零样本-CoT(Zero-Shot-CoT) 

《Large Language Models are Zero-Shot Reasoners》提到了 Zero-Shot-CoT , 它是一种用于思维链推理的零样本提示(Zero-Shot Prompting)方法,基于模板构建。

这种方法与之前的思维链提示不同,它不依赖于逐步提供的少量示例来引导AI。同时,它也不针对特定任务,而是能够跨越多种任务,使用单一模板来激发多步推理过程。

Zero-Shot-CoT 的核心思想相当直接,即在提示词中加入 “让我们一步一步思考” 这样的文本,目的是引导AI进行逐步的推理。这种方法通过简单的提示,就能让AI在广泛的任务中进行多步骤的逻辑推理,而不需要为每个任务设计特定的提示或示例。

如:

零样本-CoT提示词:

我去市场买了10个苹果。我给了邻居2个苹果和修理工2个苹果。然后我去买了5个苹果并吃了1个。我还剩下多少苹果?
让我们一步一步思考

零样本提示,见:怎么说大模型才会听 :零样本提示(Zero-Shot Prompting)

与少样本-CoT 类似,零样本-CoT 促进了多步推理(蓝色文本),并在标准提示失败的情况下得出正确答案。与每个任务使用逐步推理示例的少样本-CoT 不同,它不需要任何示例,而是对所有任务(算术、符号、常识和其他逻辑推理任务)使用相同的提示“让我们一步一步想”,见图3

图3

零样本-CoT的表现 

对 零样本-CoT 与其他提示基线进行了实证评估。 零样本-CoT 表现不如在经过精心设计下的 少样本-CoT,但与 标准零样本 基准相比,零样本-CoT 取得了巨大的分数提升

例如在 MultiArith 上从 17.7% 提高到 78.7%,在 GSM8K 上从 10.4% 提高到 40.7% ,见图4

图4 在 MultiArith 和 GSM8K 上使用的准确性
图5 不同模型下的表现


数据标明,在零样本提示下,通过添加一个简单的提示“让我们一步一步来”,可以促进在回答每个问题之前进行逐步的思考,尽管简单, Zero-Shot-CoT 成功地以 零样本 的方式生成一个合理的推理路径,并在标准 零样本 方法失败的问题中得出正确答案,并且性能分数得到提高。重要的是, Zero-Shot-CoT 是通用的并且不依赖于任务,这与大多数之前特定任务的提示工程不同


最后,不管在零样本的情况下,还是少样本的情况下,思维链都是一个很好的方式,用来提升大模型的推理效果




往日文章:


--END--

点亮“赞”“在看”“分享”好友一起看

AI取经路
踏上取经路,比抵达灵山更重要! AI技术、 AI知识 、 AI应用 、 人工智能 、 大语言模型
 最新文章