AI Agent：三个臭皮匠（低配模型+Agent）顶个诸葛亮（GPT-4o 或者更强大模型）

财富 2024-06-23 17:17 广东

“通往 AGI 的道路感觉更像是一段旅程，而不是一个目的地。但我认为这种类型的 Agent 工作流可以帮助我们在这个非常漫长的旅程中向前迈进一小步。”

——吴恩达（Andrew NG）

—

AI Agent 是什么

AI Agent（智能体）是一种基于大模型（LLM）的智能应用，能够感知环境、自主理解、规划决策、执行任务。

我们可以简单地把 AI Agent 理解成定制的 GPT、腾讯元器的智能体、字节 Coze 的 bot。

从功能上看，AI Agent 通常会包含记忆、规划、工具、行动四大模块组成。

记忆: 分为短期记忆和长期记忆，类似于人类大脑的记忆功能。
规划: 包括思维链和目标分解，帮助 AI Agent 处理复杂任务。
工具和行动: AI Agent 使用不同的工具来执行任务，类似于人类使用工具完成工作。

下面这张图对各模块的关联关系、层次结构有直观的描述。

前阿里巴巴技术副总裁、AI 科学家贾扬清，举了一个非常生动的例子，这个例子能够很好地说明 AI Agent 这个智能体在一个搜索任务中体现出来的自主性。

比如你想知道黑客新闻（Hacker News）论坛上今天最热门的帖子说了什么。

直接在 Google 这种传统搜索引擎输入这个问题（"what did the most popular post in hacker news say today?"），它只会匹配关键词，返回的结果都是提到过”黑客新闻热帖”关键词的网页，而不是真正的今日热帖。

上面是我用 Google 测试的结果，它返回的第一个答案居然是 2020 年 9 月份的一个网页。显然，Google 没有理解我的问题和真实意图。

值得一提的是，我的 Google 账号已经启用了 Google Search AI Overview 特性，但它还是走到了关键字搜索的逻辑。

但是 GPT-4o 是能够理解的，它理解你！它会先访问黑客新闻实时网页，查看其中的帖子，找到哪个贴的“点数”最高，然后把内容总结后给到你：

跳转到黑客新闻页面，发现果然最热的就是那个帖子。

Agent 不但理解了你的意思，而且主动调用了上网工具，然后根据返回的信息进一步访问了那个帖子，最后给你生成了摘要。而这一切都是它自己的决定。

也许大家会觉得：这不就是一个 web search 插件的功能吗？

大家可以回想一下 ChatGPT 早期推出 web search 功能的时候，它是需要用户手动开启这个工具开关的，也就是说你给到 ChatGPT 一个明确的上下文：下面的对话我要开启网络搜索了啊，你注意下。

现在 ChatGPT 已经去掉了这个交互，在可接受的延时内，不仅识别到你的真实意图，还给到了一个准确的答案。

连专攻 AI 搜索，有志于取代传统搜索引擎的 Perplexity、秘塔搜索，也没通过这个测试，可见OpenAI 还是「遥遥领先」的。

【Perplexity 回答截图】

【秘塔搜索回答截图】

—

为什么 Agent 会火

早在 2023 年 4 月份，以 AutoGPT 为代表的 Auto Agent 热度快速蹿升，AutoGPT 成为 Github 历史上 star 数增长最快的项目。

后续随着 MetaGPT、 AutoGen 等多 Agent 框架相继发布，到 11 月 6 日 OpenAI 官方推出 GPTs，让更多的开发者基于 GPT 模型进行高效的 Agent 开发。

再到字节 Coze、腾讯元器的发布，国内 Agent 的市场也被彻底点燃。

为什么 Agent 会火，总的来说是两点：

更强的智能
更可控的输出

更强的智能

腾讯 2024 年 2 月发表的论文显示：仅仅靠“智能体分身再综合”这一招，Llama2这个开源小模型的能力就达到了GPT-3.5的水平，而GPT-3.5的能力分身综合后可以达到GPT-4的水平。

无独有偶，在 2024 年 4 月红杉举行的 AI Ascent 大会上，吴恩达对 Agent 的做了专题演讲，在他们基准测试中，使用 Agent 的 GPT3.5 实际上优于 GPT4，这个结果将对上层应用的构建带来重大的影响。

更可控的输出

使用过元器或者 Coze 工作流的小伙伴对「更可控的输出」会更有感触。

大多数人使用 ChatGPT 的方式是非 Agent 式的工作流，即输入提示，生成答案，就像让一个人从头到尾，一气呵成写一篇文章，中间没有停顿、没有反思、没有审阅也没有打磨的过程。尽管这很有挑战，但大模型完成得非常好。

相比之下，Agent 式工作流是这样的：让 AI 编写文章大纲，看是否需要做一些研究，然后写初稿，阅读初稿并思考哪些部分需要修改，然后修改草稿，如此反复。这个工作流程更加迭代，在其中你可能让大模型做一些思考，然后对文章做修改，然后做更多的思考，如此迭代多次。

就如《Coze工作流的深度体验：打造家庭会议助手并浅谈插件生态》提到的，使用 Agent 不仅能够让文章结构更加清晰，还让最后生成的文章内容更可控。

尤其是在企业端，稳定性和可解释性比起自主性更重要。

—

Agent 的方向和当前局限

当前的 Agent 还是个新兴的领域，有大量的研究和开源项目。尽管如此，吴恩达对 Agent 的发展方向做更具体的分类，便于我们有选择地运用到相关的产品设计中。

反思（Reflection）
工具使用（Tool user）
规划（Planning）
多智能体协同（Multi-agent collaboration）

目前来看，反思（Reflection）和工具使用（Tool use）这两类是相对成熟的方向，稳定可控，推荐大家尽快用起来，至少值得作为一个 AI 应用工程落地的备选方案。

关于反思（Reflection），推荐大家一个开源项目：OpenDevin，它是一个编程智能体（Coding Agent），根据提示描述，可以自动生成代码、生成测试用例、自动 Debug，过程非常稳定、丝滑。

https://github.com/OpenDevin/OpenDevin

规划（Planning）和多智能体协同（Multi-agent collaboration）目前还处于新兴阶段，当使用它们时，有时会对它们的表现感到震惊，但至少在目前，让它们稳定工作还有一定的挑战。

除了 Agent 技术本身的特点，产品化过程中，它的延时同样值得大家关注。

当我们使用大模型的时候，内心期望的是一个同步交互，对大模型返回的时延是有一个忍耐限度的。

当你通过 Google 搜索时，你希望在半秒钟内得到响应，这是人性，我们喜欢即时的反馈。

但对于许多 Agent 智能体，我们需要学会将任务委托给 AI Agent，并耐心等待几分钟，甚至几个小时才能得到响应。就像在工作上，我们把一些事情交给别人，然后过一些时间来获取反馈一样。

这种异步处理的过程可能并不高效，但确实是 Agent 当前的现状。

因此对于采用 Agent 技术架构的产品来说，深度了解用户的具体场景和预期，辅以对应的交互设计，才是考验 AI 产品经理的地方。

—

Agent 的方向和当前局限

【奇绩创坛】[AI Agent 开发者对话：科研和商业化落地》](
https://mp.weixin.qq.com/s/kbnaYmcJkWGOLLqDiGn-qQ)
【万维刚】[人的智能是 AI 的上限吗（下）》](https://www.dedao.cn/course/article?id=89GEyP73eprvKBPD1QJq2Mb0kRD64d)
【红杉 2024 AI 大会-吴恩达分享】[What's next for AI agentic workflows ft. Andrew Ng of AI Fund](https://www.youtube.com/watch?v=sal78ACtGTc&list=PLOhHNjZItNnOoPxOF3dmq30UxYqFuxXKn&index=2)
【腾讯 Agent 研究论文】[Masterman, Tula, Sandi Besen, Mason Sawtell, and Alex Chao. "The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey." arXiv, April 23, 2024.](https://arxiv.org/abs/2404.11584)
【贾扬清】[what did the most popular post in hacker news say today?](https://x.com/jiayq/status/1786208795720593789?mx=2)

凡哥杂谈

三年后台研发路，一朝沦为产品汪。焊过板子，编过内核，写过前端，AGI 实干派。

最新文章

《小而美》：打造 10 亿美元级企业梦想破灭后的自我反思

《做难而正确的事》：爱上问题并倾听用户声音才是找到PMF的唯一途径

强化学习之父--里奇·萨顿：苦涩的教训，算力才是王道，摩尔定律仍有效

被大众低估的 OpenAI o1，如何开启 AI 新纪元

AI 广播站周刊-2024/09/16：OpenAI 全新发布 o1 模型，长文本大模型测评结果出炉

硅谷投资教父保罗·格雷厄姆：创始人模式 vs 经理人模式 vs 微观管理

Perplexity CEO：从未尝试在 Google 擅长的领域与其竞争

中国企业生成式 AI 应用落地现状？我们采访了数百家企业先行者

硅谷投资教父保罗·格雷厄姆：如何在复杂环境中做出正确决策

定价及定位：如何为 SaaS 产品中 AI 功能定价

SaaS 产品从 0 到 1 的艰辛历程：Atlassian 产品负责人独家揭密（上篇）

SaaS 产品从 0 到 1 的艰辛历程：Atlassian 产品负责人独家揭密（下篇）

重新定义用户增长策略：Duolingo 如何扭转局势

AI Agent：三个臭皮匠（低配模型+Agent）顶个诸葛亮（GPT-4o 或者更强大模型）

探索 Perplexity：产品经理的新式 AI 工具

硅谷教父保罗·格雷厄姆：追随你的好奇心并终生学习的超线性回报

Coze工作流的深度体验：打造家庭会议助手并浅谈插件生态

《李飞飞：我看见的世界》，一位人工智能领域先驱的不凡人生

AI 如何颠覆产品经理的工作模式

红杉 2024 AI 大会：生成式 AI 的机遇与挑战

《技术陷阱：从工业革命到AI时代，技术创新下的资本、劳动与权力》

张津剑·如何抓住 AI 带来的创业信号

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉