为什么提示词总出错？使用思维链（CoT）提升效果高达 78%！

科技 2024-12-27 18:00 山西

-推荐关注-

-正文-

什么是思维链（CoT）
思维链（CoT）的表现
CoT提示的工作原理
CoT的局限性
什么是零样本-CoT（Zero-Shot-CoT）
零样本-CoT的表现

-- 领取学习资料大礼包，有兴趣见文末

思维链（Chain of Thought, CoT）提示是由谷歌研究团队在2022年提出的一种创新方法，用于提升大语言模型在复杂推理任务中的表现。思维链通过在提示中嵌入中间推理步骤，使模型能够以逐步推理的方式解决问题，显著改善了模型在数学、常识和符号推理等任务上的表现。

现在（2024年末），随着大模型能力的显著增强，许多简单任务即便不使用显式的思维链提示，模型也能直接输出正确答案，但是对于复杂的推理，CoT的效果还是非常突出

论文：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
https://arxiv.org/abs/2201.11903v6

什么是思维链（CoT）

2022年，Google探索了提示词由三元组⟨输入、思维链、输出⟩ 组成，语言模型在推理任务中的能力。

思维链指的是一系列中间自然语言推理步骤，这些步骤最终导向最后的输出。这种方法称为基于思维链的提示（Chain-of-Thought Prompting）

如：

一般的少样本提示：

提示词中有1个示例

问 ：小明有5个网球，他又买了2罐网球，每罐有3个网球。他现在有多少个网球?
答 ：11个

问 ：自助餐厅有23个苹果，如果他们用20个做午餐，再买6个，他们有多少个苹果?

思维链提示：

提示词中有1个示例，并且示例中有思维链过程

问 : 小明有5个网球，他又买了2罐网球，每罐有3个网球。他现在有多少个网球?
答 ：罗杰从5个球开始。2罐3个网球，每罐6个。5+6=11。答案是11.

问 : 自助餐厅有23个苹果，如果他们用20个做午餐，再买6个，他们有多少个苹果?

通过提供一些示例（或范例），其中推理过程被明确展示，LLM学会在其响应中包含推理步骤。这种结构化思考方法通常会导致更准确的结果。

少样本提示，见：怎么说大模型才会听：提示工程神器之少样本提示(Few-Shot Prompting)

以下示例阐明了标准的少样本提示（左侧）与 CoT 提示（右侧）之间的差异。虽然传统方法直接走向解决方案，但 CoT 引导模型展示其推理过程，通常导致更准确和可解释的结果。

思维链（CoT）的表现

三个大型语言模型上的实验表明，思维链提示提高了在一系列算术、常识和符号推理任务上的性能。增益是显著的。

例如，仅用八个思维链示例对 PaLM 540B 进行提示，就能在数学应用题的 GSM8K 基准测试中达到最先进的准确度，甚至超越经过验证的微调 GPT-3，见图2

论文时间是2023年1月，基于当时的表现，CoT的成绩是非常突出的
PaLM（Pathways Language Model）是谷歌大型语言模型,最新版本是PaLM 2，在Google I/O 2023大会上发布,与GPT4对标

仅依靠提示的方法来提升推理性能很重要，因为它不需要大规模的训练数据集，并且单个模型可以在不失去一般性的情况下执行许多任务。

这项工作强调了大型语言模型如何通过少量关于任务的自然语言数据示例进行学习来提升性能（与通过大规模训练数据集自动学习输入和输出的模式相对照）

CoT提示的工作原理

分解问题：CoT 提示引导模型将复杂问题分解为可管理的步骤，类似于人类解决问题的方式。
以示例为指导：链式思维使用展示推理步骤的例子，帮助模型理解达到正确答案所需的方法。

CoT 提示在结构化推理至关重要的任务中尤其有价值：

数学和算术：思维链（CoT）通过逐步指导计算，帮助解决多步骤文字题。
常识性和符号推理：在需要常识或符号推理的任务中，CoT可以弥合事实与逻辑之间的鸿沟。
复杂决策过程：在机器人等领域，CoT使模型能够按照逻辑步骤执行决策任务。

CoT的局限性

CoT 在较小的模型或性能较差的模型下，如果编写了不合逻辑的思维链，这会导致了比标准提示更差的准确性。

思维链（CoT）提示是少样本提示（Few-Shot Prompting）的一个实例，通过将少量示例中的答案修改为一步一步的答案，提出一个简单的解决方案，实现了显著的性能提升。

它允许模型在没有额外训练数据的情况下有效地执行复杂推理任务。在“大”模型（例如，参数超过 1000 亿的模型）中，这些结构化推理提示尤其显著，它们在遵循这些提示时展现出强大的推理能力。

这种性能提升是在少样本提示（Few-Shot Prompting）下的效果，属于 Few-Shot-CoT，那么在零样本提示（Zero-Shot Prompting）下应该怎么做思维链提示？

什么是零样本-CoT（Zero-Shot-CoT）

《Large Language Models are Zero-Shot Reasoners》提到了 Zero-Shot-CoT ，它是一种用于思维链推理的零样本提示（Zero-Shot Prompting）方法，基于模板构建。

这种方法与之前的思维链提示不同，它不依赖于逐步提供的少量示例来引导AI。同时，它也不针对特定任务，而是能够跨越多种任务，使用单一模板来激发多步推理过程。

Zero-Shot-CoT 的核心思想相当直接，即在提示词中加入 “让我们一步一步思考” 这样的文本，目的是引导AI进行逐步的推理。这种方法通过简单的提示，就能让AI在广泛的任务中进行多步骤的逻辑推理，而不需要为每个任务设计特定的提示或示例。

如：

零样本-CoT提示词：

我去市场买了10个苹果。我给了邻居2个苹果和修理工2个苹果。然后我去买了5个苹果并吃了1个。我还剩下多少苹果？
让我们一步一步思考

零样本提示，见：怎么说大模型才会听：零样本提示(Zero-Shot Prompting)

与少样本-CoT 类似，零样本-CoT 促进了多步推理（蓝色文本），并在标准提示失败的情况下得出正确答案。与每个任务使用逐步推理示例的少样本-CoT 不同，它不需要任何示例，而是对所有任务（算术、符号、常识和其他逻辑推理任务）使用相同的提示“让我们一步一步想”，见图3

零样本-CoT的表现

对零样本-CoT 与其他提示基线进行了实证评估。零样本-CoT 表现不如在经过精心设计下的少样本-CoT，但与标准零样本基准相比，零样本-CoT 取得了巨大的分数提升

例如在 MultiArith 上从 17.7% 提高到 78.7%，在 GSM8K 上从 10.4% 提高到 40.7% ，见图4

数据标明，在零样本提示下，通过添加一个简单的提示“让我们一步一步来”，可以促进在回答每个问题之前进行逐步的思考，尽管简单， Zero-Shot-CoT 成功地以 零样本 的方式生成一个合理的推理路径，并在标准 零样本 方法失败的问题中得出正确答案，并且性能分数得到提高。重要的是， Zero-Shot-CoT 是通用的并且不依赖于任务，这与大多数之前特定任务的提示工程不同

最后，不管在零样本的情况下，还是少样本的情况下，思维链都是一个很好的方式，用来提升大模型的推理效果

往日文章：

10分钟了解大模型应用全貌 : 大模型应用架构（LLM application architecture）
从0到1开发AI Agent（智能体）（六）| 智能体1 ：通过LangChain中的ReAct框架实现自动定价
LangChain实战 | Tool Calling ：让AI真正动起来的关键技术

--END--

点亮“赞”和“在看”，“分享”好友一起看

AI取经路

踏上取经路，比抵达灵山更重要！ AI技术、 AI知识、 AI应用、人工智能、大语言模型

最新文章

谷歌对智能体的理解：白皮书《Agents》

从0到1开发AI Agent（智能体）（八）| 智能体3：通过Llamalndex实现检索增强生成（RAG）

入门GPT（二）| 词袋模型（Bag of Words）辅助提升餐厅满意度

RAG怎么面对用户的4级查询难度？微软给出方案！

入门GPT（一）| N-Gram带你了解自然语言处理（2）代码实现

入门GPT（一）| N-Gram 带你了解自然语言处理（1）

国产之光，DeepSeek V3大模型既便宜又好用，惊艳世界AI圈

LangChain实战 | OutputParser：让大模型输出从 “鸡肋” 变 “瑰宝” 的关键！

LangChain实战 | LangGraph 让你的 AI 项目从 “好” 变 “卓越”

Claude官方Anthropic建议：构建高效智能体 (Building effective agents)

从0到1开发AI Agent（七）| Plan-and-Execute 如何解决AI复杂任务

为什么提示词总出错？使用思维链（CoT）提升效果高达 78%！

10分钟了解大模型应用全貌 : 大模型应用架构（LLM application architecture）

CNNIC中国互联网络信息中心重磅发布《生成式人工智能应用发展报告（2024）》

怎么说大模型才会听：提示工程神器之少样本提示(Few-Shot Prompting)

怎么说大模型才会听：零样本提示(Zero-Shot Prompting)

从0到1开发AI Agent（智能体）（六）| 智能体1 ：通过LangChain中的ReAct框架实现自动定价

LangChain实战 | Tool Calling ：让AI真正动起来的关键技术

人工智能小白到高手：大模型通过 Function calling 沟通外部世界

斯坦福大学发布！《全球人工智能实力排行榜》 - 中美 AI 赛跑

一文说清楚什么是大模型LLMs的Token,全面了解钱的流向

一文说清楚什么是多模态大模型，与大模型有什么区别

人工智能小白到高手：怎么都绕不开的独热编码（one-hot encoding）

从0到1开发AI Agent（智能体）（五）：LlamaIndex 极速上手攻略

人工智能小白到高手：什么是线性回归

数字智能会取代生物智能吗？AI 教父 Geoffrey Hinton 你怎么看

从0到1开发AI Agent（智能体）（四）| LangChain 的快速入门

加速让企业落地"生成式AI"，53%的公司已经领先一步！

从0到1开发AI Agent（智能体）（三）| OpenAI API的快速入门

OpenAI 12天发布会狂欢开始了！第一天的重磅发布

给小朋友解释什么是人工智能、机器学习、深度学习、神经网络

人工智能深度学习的进化史：一场横跨80年的脑洞之旅

从0到1开发AI Agent（智能体）（二）| 智能体推理引擎ReAct框架的快速入门

10分钟解决国内不能访问OpenAI API的一个方案

AI时代，Java程序员不能不知道的两个框架

4 个关键的 AI 趋势 | 吴恩达在 Snowflake Build 2024 上的演讲大纲

智能体（AI Agent）的5个能力级别将带我们走向何方

从0到1开发AI Agent（智能体）（一）| 基于大模型的AI Agent技术框架

一文说清楚什么是AI大模型

为AI而生的向量数据库 - milvus(三) | 使用（1）

一个程序员的感恩节独白：写给那些代码里的温暖

人工智能小白到高手：Sentence-Transformers

一文说清楚人工智能的嵌入（Embedding）是什么

未来的手机是什么样子，AI赋能的全新体验，Mate 70系列的智慧亮点

为AI而生的向量数据库 - milvus(二) | 单机Standalone安装

人工智能小白到高手：余弦相似度（Cosine Similarity）的简单理解

Docker在Windows环境（WSL2）的安装

为AI而生的向量数据库 - milvus(一) | milvus是什么

从制造到医疗，行业大模型正重塑世界！- 腾讯研究院发布《行业大模型调研报告》

一文说清楚什么是AI Agent(智能体)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉