优化AI Agent系统推理能力：探索DeepSeek-R1、OpenAI o1/o3及训练/推理扩展的新路径

文摘 2025-02-09 08:03 安徽

过去一年，生成式 AI 的应用和 AI Agent 的开发呈现爆炸式增长。LangChain 的报告显示，51% 的受访者在生产环境中已经使用了 AI Agent，而 Deloitte 的报告预测，到 2025 年，至少有 25% 的使用生成式 AI 的企业将启动 AI Agent 的试点或概念验证项目。

尽管 AI Agent 框架越来越受欢迎并且发展迅速，但在构建这些系统时，开发者很快就会遇到大语言模型（LLM）固有的局限性，其中模型的推理能力通常是最突出的问题。为了解决这一问题，研究人员和开发者探索了多种技术手段，从采用不同的提示方法（例如 ReAct 或 Chain of Thought，简称 CoT），到构建各自负责规划和评估的多 Agent 系统，而如今，各大公司更是开始发布专门训练以改善模型内置推理过程的新模型。

DeepSeek 的 R1 以及 OpenAI 的 o1 和 o3 公告正引发行业震动，它们相比传统 LLM 提供了更强大的推理能力。这些模型在回答之前会先“思考”，具备一个独立的推理流程，能够将复杂任务拆解为简单步骤，迭代地完成各个步骤，并在给出最终答案前识别和修正错误。这与早期模型（如 GPT-4o）截然不同，后者需要用户通过提示让模型进行逐步思考，并构建循环机制以便模型能迭代地规划、执行和评估任务进展。训练推理语言模型（Reasoning Language Model，RLM），例如 o1、o3 和 R1，其关键差异之一在于更注重后训练阶段和测试时计算资源的扩展。

本文将探讨训练阶段与测试阶段计算资源扩展的关键差异、后训练阶段的要点以及如何训练像 DeepSeek 的 R1 这样的 RLM，并讨论 RLM 对 AI Agent 开发带来的影响。

训练时计算资源 vs 推理时计算资源

概览

计算资源扩展（Compute Scaling）指的是为训练和运行 AI 模型提供更多的资源，比如处理能力和内存。简单来说，训练时计算资源扩展适用于两个阶段：

预训练阶段：模型通过大量数据（例如 Common Crawl 数据集）学习一般模式，预测给定上下文下最可能出现的下一个词或标记。
后训练阶段：在基础模型的基础上，利用强化学习（RL）或监督微调（SFT）等方法进行额外训练，从而学习更具体的行为。

相对地，推理时计算资源扩展应用于模型在预测阶段。它通过提供更多的计算能力，使模型在生成最终答案前能够“思考”，探索多个可能的解决方案。

需要明确的是，虽然推理时计算扩展和后训练都能帮助模型在输出最终结果前进行“思考”，但它们的实现方式截然不同。

后训练是通过更新或重新训练模型来实现的，而推理时计算扩展则是在推理过程中不改变模型参数的前提下，利用额外的计算资源探索多种答案。实际上，两者可以结合使用——例如，你可以先用后训练优化模型的推理能力（如 DeepSeek-R1 所示），然后在推理时通过额外计算进一步提升其“思考”效果。

Image by author. Depicts a very simple representation of pre-training and post-training. Note that there can be significant variations in post-training, but essentially the base model is modified in some way to create an updated model better suited to the task.

训练时计算资源：预训练与后训练

目前，大多数大语言模型（LLM）和基础模型都是通过对来自互联网等来源的大量数据进行预训练来学习。这些数据涵盖了各种各样的人类文本，预训练阶段让模型学会在给定上下文中预测下一个最有可能出现的词或标记。预训练完成后，大部分模型还会经过一种称为监督微调（SFT）的过程，以便针对指令遵循或聊天场景进行优化。

总体而言，这一训练流程极为耗费资源，需要进行多次训练，每次花费数百万美元，才能产生如 Claude 3.5 Sonnet、GPT-4o、Llama 3.1–405B 等模型。这些模型在逻辑推理、数学、编码、阅读理解等各种基准测试中表现卓越，适用于多种通用任务。

然而，尽管这些模型在各类问题上表现优异，但要让典型的 LLM 在回答前真正“思考”起来，往往需要用户进行大量工程上的包装。基本上，这些模型接收输入后，会直接输出一个答案——可以视作模型基于预训练所学或通过上下文提示即时生成的最佳猜测。这种“一步到位”的行为正是催生 Agent 框架、链式思维（Chain-of-Thought, CoT）提示以及工具调用等方法的原因。这些模式使得开发者能够围绕 LLM 构建系统，实现更迭代化、结构化且更成功的应用开发流程。

最近，DeepSeek-R1 等模型开始偏离传统的预训练和后训练模式，不再单纯优化模型用于聊天或指令遵循，而是采用多阶段的后训练流水线，专门教会模型一些更具体的行为（例如如何生成链式思维序列），从而整体上提升模型的“思考”和推理能力。接下来的章节中，我们将以 DeepSeek-R1 的训练流程为例，详细探讨这一过程。

推理时计算资源扩展：在推理阶段实现“思考”

令人兴奋的是，通过推理时计算扩展和后训练技术，可以将推理和迭代式问题求解的能力内置到模型或其推理流水线中。不再需要完全依赖开发者来引导整个推理和迭代过程，而是让模型在生成答案前自行探索多种解决路径，对进展进行反思、评估并选出最佳方案，从而优化整体的推理流程。

需要注意的是，推理时计算资源扩展主要针对推理阶段的性能优化，不涉及对模型参数的修改。实际上，这意味着一个较小的模型（例如 Llama 3.2–8b）可以通过在推理阶段花费更多时间“思考”和探索众多可能方案，与更大模型一较高下。

常见的推理时计算扩展策略包括：

自我优化（Self-Refinement）：模型不断迭代地优化自身输出。
与验证器配合的搜索（Searching Against a Verifier）：生成多个可能答案，由验证器挑选出最佳路径。

常用的验证器搜索策略包括：

Best-of-N：针对每个问题生成多个回答，对每个回答进行评分，最终选出得分最高的答案。
Beam Search：通常使用过程奖励模型（Process Reward Model, PRM）对多步推理过程进行评分。该策略先生成多个解决路径（束），确定哪些路径值得继续搜索，然后生成新的一组子路径并进行评估，直至得出解决方案。
多样化验证树搜索（Diverse Verifier Tree Search, DVTS）：与 Beam Search 类似，不过为每个初始路径构建独立的搜索树，再对各分支进行扩展和评分。

Image by author inspired by HuggingFace blog on Test Time Compute Scaling

目前，确定哪种搜索策略最优仍是一个活跃的研究领域。不过，HuggingFace 上已经有许多优秀的资源和示例，展示了这些策略如何在实际应用中实现。

训练推理语言模型（RLM）

OpenAI 于 2024 年 9 月发布的 o1 模型，是首批在回答用户前会先“思考”的模型之一。虽然相比 GPT-4o 等模型，o1 的响应时间较长，但由于它会生成链式思维序列以帮助分解并解决问题，因此在应对更复杂任务时通常表现更好。

与 o1 和 o3 模型交互时，需要采用与之前几代模型不同的提示工程方法，因为这些新型推理模型的工作方式与以往有很大不同。例如，对 o1 或 o3 直接下达“逐步思考”的指令，其效果远不如对 GPT-4o 发出同样指令时那么显著。

由于 OpenAI 的 o1 和 o3 模型均为闭源，外界无法得知其具体开发细节，这也是 DeepSeek-R1 备受关注的重要原因之一。DeepSeek-R1 是首个在行为和性能上可与 OpenAI o1 相媲美的开源模型，对开源社区意义重大——这意味着开发者可以根据自身需求修改 R1，并在计算资源允许的情况下，复现其训练方法。

DeepSeek-R1 训练流程：

DeepSeek-R1-Zero：首先，DeepSeek 对其基础模型 DeepSeek-V3 进行了强化学习（RL，即后训练），从而产生了 DeepSeek-R1-Zero 模型。该模型学会了推理、生成链式思维序列，并展现出自我验证与反思等能力。仅通过 RL 学会这些行为，对整个 AI 行业来说意义非凡。然而，尽管 DeepSeek-R1-Zero 在学习能力上表现出色，但它存在语言混用、可读性差等问题，这促使团队探索其它路径以稳定性能并打造更适合生产环境的模型。
DeepSeek-R1：构建 DeepSeek-R1 采用了一个多阶段后训练流水线，交替进行 SFT 和 RL 步骤。首先，研究人员对 DeepSeek-V3 使用数千个链式思维（CoT）示例数据进行 SFT，以期为后续 RL 提供一个更稳定的起点并解决 R1-Zero 的问题。接下来，进行 RL，并引入奖励机制，促进语言一致性，并提升在科学、编码、数学等任务中的推理能力。之后，再次进行 SFT，此次加入非推理类训练示例，帮助模型保留如写作和角色扮演等通用能力。最后，再次进行 RL，以使模型更符合人类偏好。最终，这一流程产生了一个拥有 671B 参数的高性能模型。
蒸馏版 DeepSeek-R1 模型：DeepSeek 团队进一步证明，DeepSeek-R1 的推理能力可以仅通过 SFT（无需 RL）蒸馏到更小的开源模型中。他们基于 Qwen 和 Llama 架构，对参数量在 1.5B 至 70B 范围内的模型进行微调，最终获得了一系列轻量高效、推理能力更强的模型。这大大提升了开发者的使用门槛，因为许多蒸馏模型能够在设备上快速运行。

结论：提升推理模型对 AI Agent 的影响

随着以推理为先的模型和推理时计算扩展技术的不断进步，AI Agent 的系统设计、能力以及用户交互体验都将发生显著变化。

展望未来，我相信我们将看到更简化的 Agent 团队。未来可能不再需要为每种超特定应用场景设置独立的 Agent 和专用提示、工具，而会出现一种设计模式——由单一的推理语言模型（RLM）管理整个工作流程。如果 Agent 能够更自主地探索多种解决方案，那么用户提供的背景信息也可能会大幅减少。

此外，用户与 Agent 的交互方式也将发生转变。目前许多 Agent 接口依然以聊天为主，用户期望获得近乎即时的响应。但由于 RLM 的响应时间较长，用户的期望和体验必然会随之转变，我们可能会看到更多用户将任务委托给后台运行的 Agent 团队。这些任务执行时间可能长达数分钟甚至数小时，具体取决于任务的复杂度，但理想情况下将产生详尽且高度可追溯的输出，从而使用户能够同时将多个任务交由不同的 Agent 团队处理，把更多精力投入到以人为本的工作中。

尽管这些以推理为重点的模型表现可圈可点，但目前许多模型仍缺乏工具调用功能。OpenAI 最新发布的 o3-mini 就是首个原生支持工具调用、结构化输出以及开发者提示（新版系统提示）的推理模型。工具调用对于 Agent 至关重要，因为它使 Agent 能够与外部世界交互、收集信息，并真正代表用户执行任务。鉴于这一领域的创新速度之快，我预计不久之后会有更多集成了工具调用能力的 RLM 问世。

总之，这仅仅是通用推理模型新时代的开始，它将不断改变我们的工作和生活方式。

https://towardsdatascience.com/improving-agent-systems-ai-reasoning-c2d91ecfdf77/

PyTorch研习社

打破知识壁垒，做一名知识的传播者

推荐账号，扫码关注

以最简单的方式揭秘大模型（LLM）复杂的工作原理

这就是DeepSeek R1能以1/30的成本挑战OpenAI等大厂的底气

性能媲美Deepseek-R1，李飞飞带着仅用1k样本在26分钟内花50美元训练的S1来了

试试这些开源免费的DeepResearch，每月省200刀

强化学习 VS 监督微调：从谷歌这篇论文来看哪种方法能更好地应对未知任务？

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉