【编者按】从为用户提供优质问答体验,到如今逐渐朝着适应智能体(agent)工作流优化发展,大语言模型(LLMs)正经历着深刻的变革。
日前,美国计算机科学家、斯坦福大学计算机科学系和电子工程系副教授、DeepLearning AI 创始人吴恩达(Andrew Ng)深入剖析了这一转变趋势并分享了他关于智能体性能提升前景的见解。
在博客中,他描述了当前 LLMs 发展的新趋势,指出 LLMs 在智能体工作中的多样应用场景以及开发人员在不同应对策略下的具体实践情况,并对智能体未来发展做出了乐观展望。
学术头条在不改变原文大意的情况下,对发布内容做了简单的编译。内容如下:
亲爱的朋友们:
大语言模型(LLMs)通常是为回答人们的问题而优化的。但现在的趋势是,对模型进行优化也是为了适应智能体工作流。这将大大提高智能体性能!
继 ChatGPT 在回答问题方面取得巨大成功之后,大量 LLMs 的开发都集中在提供良好的消费者体验上。因此,LLMs 被微调为回答问题(“莎士比亚为什么写《麦克白》?”)或遵循人类提供的指令(“解释莎士比亚为什么写《麦克白》”)。大部分用于指令微调的数据集都会引导模型为人类编写的问题和指令提供更有帮助的回答,这些问题和指令就是人们可能会向面向消费者的 LLMs 提出的问题和指令,比如 ChatGPT、Claude 或 Gemini 的网络接口所提供的问题和指令。
但是,智能体工作负载需要不同的行为。人工智能软件不是直接为消费者生成响应,而是在迭代工作流中使用模型来反思自己的输出、使用工具、编写计划,并在多智能体环境中进行协作。主要的模型制造商也在不断优化模型,以便用于 AI 智能体。
以工具使用(或函数调用)为例。如果向 LLMs 询问当前的天气情况,它无法从训练数据中获得所需的信息。相反,它可能会生成一个 API 调用请求来获取该信息。甚至在 GPT-4 原生支持函数调用之前,应用程序开发人员就已经在使用 LLMs 生成函数调用了,不过是通过编写更复杂的提示(如 ReAct 提示的变体),告诉 LLMs 有哪些函数可用,然后让 LLMs 生成一个字符串,由单独的软件例程进行解析(或许使用正则表达式),以确定是否要调用某个函数。
在 GPT-4 之后,生成此类调用变得更加可靠,随后许多其他机型也原生支持函数调用。如今,LLMs 可以决定调用函数来搜索用于检索增强生成(RAG)的信息、执行代码、发送电子邮件、在线下订单等。
最近,Anthropic 发布了一个能够在计算机上使用的模型版本,它可以使用鼠标点击和击键来操作计算机(通常是虚拟机)。我很喜欢玩这个演示。虽然其他团队一直在促使 LLMs 使用计算机来构建新一代 RPA(机器人流程自动化)应用,但一家主要 LLMs 提供商对 computer use 的原生支持是向前迈出的一大步。这将对许多开发人员有所帮助!
随着智能体工作流的成熟,我看到了以下几点:
首先,许多开发人员正在提示 LLMs 执行他们想要的智能体行为。这样可以进行快速、丰富的探索!
在数量少得多的情况下,那些正在开发非常有价值应用的开发人员会对 LLMs 进行微调,以便更可靠地执行特定的智能体功能。例如,尽管许多 LLMs 本机支持函数调用,但它们是将可用函数的描述作为输入,然后(希望)生成输出 tokens 来请求正确的函数调用。对于关键任务应用程序来说,生成正确的函数调用非常重要,针对应用程序的特定函数调用微调模型可显著提高可靠性。(但请避免过早优化!如今,我仍然看到很多团队在进行微调时,可能应该先花更多时间进行提示,然后再采取这种做法)。
最后,当工具使用或 computer use 等能力对许多开发人员来说很有价值时,主要的 LLMs 提供商就会直接在其模型中构建这些能力。尽管 OpenAI o1-preview 的高级推理功能可以帮助消费者,但我预计它对智能体推理和规划的作用会更大。
大多数 LLMs 已针对回答问题进行了优化,主要是为了提供良好的消费者体验,我们已经能够将它们“嫁接”到复杂的智能体工作流中,以构建有价值的应用。为支持智能体中的特定操作而构建 LLMs 的趋势将大大提高智能体性能。我相信,在未来几年内,智能体性能将朝着这个方向大幅提升。
继续学习!