AI Agent:三个臭皮匠(低配模型+Agent)顶个诸葛亮(GPT-4o 或者更强大模型)

财富   2024-06-23 17:17   广东  

“通往 AGI 的道路感觉更像是一段旅程,而不是一个目的地。但我认为这种类型的 Agent 工作流可以帮助我们在这个非常漫长的旅程中向前迈进一小步。”

——吴恩达(Andrew NG)


01

AI Agent 是什么


AI Agent(智能体)是一种基于大模型(LLM)的智能应用,能够感知环境、自主理解、规划决策、执行任务。

我们可以简单地把 AI Agent 理解成定制的 GPT、腾讯元器的智能体、字节 Coze 的 bot。

从功能上看,AI Agent 通常会包含记忆、规划、工具、行动四大模块组成。

  • 记忆: 分为短期记忆和长期记忆,类似于人类大脑的记忆功能。
  • 规划: 包括思维链和目标分解,帮助 AI Agent 处理复杂任务。
  • 工具和行动: AI Agent 使用不同的工具来执行任务,类似于人类使用工具完成工作。

下面这张图对各模块的关联关系、层次结构有直观的描述。


前阿里巴巴技术副总裁、AI 科学家贾扬清,举了一个非常生动的例子,这个例子能够很好地说明 AI Agent 这个智能体在一个搜索任务中体现出来的自主性

比如你想知道黑客新闻(Hacker News)论坛上今天最热门的帖子说了什么

直接在 Google 这种传统搜索引擎输入这个问题("what did the most popular post in hacker news say today?"),它只会匹配关键词,返回的结果都是提到过”黑客新闻热帖”关键词的网页,而不是真正的今日热帖。


上面是我用 Google 测试的结果,它返回的第一个答案居然是 2020 年 9 月份的一个网页。显然,Google 没有理解我的问题和真实意图

值得一提的是,我的 Google 账号已经启用了 Google Search AI Overview 特性,但它还是走到了关键字搜索的逻辑。


但是 GPT-4o 是能够理解的,它理解你!它会先访问黑客新闻实时网页,查看其中的帖子,找到哪个贴的“点数”最高,然后把内容总结后给到你:


跳转到黑客新闻页面,发现果然最热的就是那个帖子。

Agent 不但理解了你的意思,而且主动调用了上网工具,然后根据返回的信息进一步访问了那个帖子,最后给你生成了摘要。而这一切都是它自己的决定

也许大家会觉得:这不就是一个 web search 插件的功能吗?

大家可以回想一下 ChatGPT 早期推出 web search 功能的时候,它是需要用户手动开启这个工具开关的,也就是说你给到 ChatGPT 一个明确的上下文:下面的对话我要开启网络搜索了啊,你注意下。

现在 ChatGPT 已经去掉了这个交互,在可接受的延时内,不仅识别到你的真实意图,还给到了一个准确的答案。

连专攻 AI 搜索,有志于取代传统搜索引擎的 Perplexity、秘塔搜索,也没通过这个测试,可见OpenAI 还是「遥遥领先」的。

【Perplexity 回答截图】


【秘塔搜索回答截图】



02

为什么 Agent 会火


早在 2023 年 4 月份,以 AutoGPT 为代表的 Auto Agent 热度快速蹿升,AutoGPT 成为 Github 历史上 star 数增长最快的项目

后续随着 MetaGPT、 AutoGen 等多 Agent 框架相继发布,到 11 月 6 日 OpenAI 官方推出 GPTs,让更多的开发者基于 GPT 模型进行高效的 Agent 开发。

再到字节 Coze、腾讯元器的发布,国内 Agent 的市场也被彻底点燃。

为什么 Agent 会火,总的来说是两点:
  • 更强的智能
  • 更可控的输出

更强的智能
腾讯 2024 年 2 月发表的论文显示:仅仅靠“智能体分身再综合”这一招,Llama2这个开源小模型的能力就达到了GPT-3.5的水平,而GPT-3.5的能力分身综合后可以达到GPT-4的水平


无独有偶,在 2024 年 4 月红杉举行的 AI Ascent 大会上,吴恩达对 Agent 的做了专题演讲,在他们基准测试中,使用 Agent 的 GPT3.5 实际上优于 GPT4,这个结果将对上层应用的构建带来重大的影响



更可控的输出
使用过元器或者 Coze 工作流的小伙伴对「更可控的输出」会更有感触。

大多数人使用 ChatGPT 的方式是非 Agent 式的工作流,即输入提示,生成答案,就像让一个人从头到尾,一气呵成写一篇文章,中间没有停顿、没有反思、没有审阅也没有打磨的过程。尽管这很有挑战,但大模型完成得非常好。

相比之下,Agent 式工作流是这样的:让 AI 编写文章大纲,看是否需要做一些研究,然后写初稿,阅读初稿并思考哪些部分需要修改,然后修改草稿,如此反复。这个工作流程更加迭代,在其中你可能让大模型做一些思考,然后对文章做修改,然后做更多的思考,如此迭代多次


就如《Coze工作流的深度体验:打造家庭会议助手并浅谈插件生态》提到的,使用 Agent 不仅能够让文章结构更加清晰,还让最后生成的文章内容更可控。


尤其是在企业端,稳定性和可解释性比起自主性更重要



03

Agent 的方向和当前局限


当前的 Agent 还是个新兴的领域,有大量的研究和开源项目。尽管如此,吴恩达对 Agent 的发展方向做更具体的分类,便于我们有选择运用到相关的产品设计中。


  • 反思(Reflection)

  • 工具使用(Tool user)

  • 规划(Planning)

  • 多智能体协同(Multi-agent collaboration)


目前来看,反思(Reflection) 和工具使用(Tool use)这两类是相对成熟的方向,稳定可控,推荐大家尽快用起来,至少值得作为一个 AI 应用工程落地的备选方案。

关于反思(Reflection),推荐大家一个开源项目:OpenDevin,它是一个编程智能体(Coding Agent),根据提示描述,可以自动生成代码、生成测试用例、自动 Debug,过程非常稳定、丝滑。

https://github.com/OpenDevin/OpenDevin


规划(Planning)和多智能体协同(Multi-agent collaboration) 目前还处于新兴阶段,当使用它们时,有时会对它们的表现感到震惊,但至少在目前,让它们稳定工作还有一定的挑战。


除了 Agent 技术本身的特点,产品化过程中,它的延时同样值得大家关注

当我们使用大模型的时候,内心期望的是一个同步交互,对大模型返回的时延是有一个忍耐限度的。

当你通过 Google 搜索时,你希望在半秒钟内得到响应,这是人性,我们喜欢即时的反馈

但对于许多 Agent 智能体,我们需要学会将任务委托给 AI Agent,并耐心等待几分钟,甚至几个小时才能得到响应。就像在工作上,我们把一些事情交给别人,然后过一些时间来获取反馈一样。

这种异步处理的过程可能并不高效,但确实是 Agent 当前的现状

因此对于采用 Agent 技术架构的产品来说,深度了解用户的具体场景和预期,辅以对应的交互设计,才是考验 AI 产品经理的地方。


03

Agent 的方向和当前局限


  • 【奇绩创坛】[AI Agent 开发者对话:科研和商业化落地》](

    https://mp.weixin.qq.com/s/kbnaYmcJkWGOLLqDiGn-qQ)
  • 【万维刚】[人的智能是 AI 的上限吗(下)》](https://www.dedao.cn/course/article?id=89GEyP73eprvKBPD1QJq2Mb0kRD64d)
  • 【红杉 2024 AI 大会-吴恩达分享】[What's next for AI agentic workflows ft. Andrew Ng of AI Fund](https://www.youtube.com/watch?v=sal78ACtGTc&list=PLOhHNjZItNnOoPxOF3dmq30UxYqFuxXKn&index=2)
  • 【腾讯 Agent 研究论文】[Masterman, Tula, Sandi Besen, Mason Sawtell, and Alex Chao. "The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey." arXiv, April 23, 2024.](https://arxiv.org/abs/2404.11584)
  • 【贾扬清】[what did the most popular post in hacker news say today?](https://x.com/jiayq/status/1786208795720593789?mx=2)

凡哥杂谈
三年后台研发路,一朝沦为产品汪。焊过板子,编过内核,写过前端,AGI 实干派。
 最新文章