从硅谷视角看智能体（AI Agent）！

文摘 2024-11-25 23:36 广东

百度世界大会之后，智能体又一次被推到是“下一个爆发应用”的风口，AI产品榜9月份数据显示，国内智能体总数1年超1000万个，是苹果应用商店每年上线应用数量的85倍，目前，国内前10的AI应用中，有7个应用都上了智能体，这7个应用占据了1.2亿中国 AI 原生应用月活跃用户的68.79%。

继大模型之后，智能体就是下一个风口，已经成为行业共识。

智能体爆发未来已来，让我们从大洋彼岸的角度看大洋彼岸智能体的观点，噢，似乎老外不叫智能体，叫AI代理（AI Agent）。

作者是埃文·阿姆斯特朗（Evan Armstrong）

大多数比赛都有一个奖金池。纽约市马拉松的冠军可以获得10万美元。2023年F1赛车的冠军赢得了1.4亿美元的奖金。

我将要描述的比赛的获胜者将赚取数十亿，甚至数百亿。他们将改变宇宙的轨迹。他们将实质性地增加GDP。

这是一场向AI代理迈进的比赛。代理是AI竞赛的下一步，也是每一个主要科技公司、研究实验室和领先的AI初创公司的焦点。

我花了几个月的时间与创始人、投资者和科学家交谈，试图了解这项技术是什么，以及参与者是谁。

01 什么是代理工作流程？

AI代理是一种模型架构，它使得一种新型的工作流程成为可能。

我们最初使用的AI会制定一个答案并返回。问它一个简单的问题，比如“雨伞能挡雨吗？”GPT-4会回答：“当然可以，你这个笨蛋。”大型语言模型能够不依赖外部数据，仅使用内部数据来回答问题，并在没有计划的情况下执行提示。这是一个直接连接输入和输出的直线。每次你想要一个新的输出，你都必须提供一个提示。

代理工作流程是循环——它们可以连续运行多次，而不需要人类参与任务的每一步。一个语言模型会根据你的提示制定一个计划，利用像网络浏览器这样的工具来执行该计划，问自己那个答案是否正确，并通过回到你这里给出答案来闭合循环。如果你问：“接下来七天波士顿的天气如何，我需要带伞吗？”代理工作流程会制定一个计划，使用网络浏览工具检查天气，并利用其现有的知识库知道如果下雨，你就需要伞。然后，它会检查自己的答案是否正确，最后说：“会下雨（像波士顿总是下雨一样，你这个笨蛋），所以是的，带上伞。”

使代理工作流程如此强大的是，因为完成任务有多个步骤，你可以优化每个步骤以提高性能。也许有一个模型来做计划，同时更小、更专业的模型来执行计划中的每个子任务，这样更快/更便宜——或者你可以构建专门的工具来融入工作流程。你懂的。

但代理工作流程是一种架构，而不是一个产品。当你将代理融入客户会购买的产品时，情况变得更加复杂。

02 解决用户问题 > 华丽的演示

在初创公司中，唯一重要的是解决客户的问题。如果代理工作流程作为产品不能比现有模型更好地解决问题，那么它们就没有用。棘手的是，目前没有人知道如何使AI代理成为一个始终更好的产品。所有部件都在那里，但没有人知道如何将它们全部组合在一起。

这一刻强烈让人想起个人计算机早期的1980年代，当时苹果、惠普和IBM在激烈竞争。它们对用户界面都有类似的想法（使用鼠标，需要显示应用程序等），但实施细节是严格保密的。这些公司在技术组件的质量以及每个组件如何组合在一起解决客户问题上进行竞争。

制造AI代理的公司也在个体组件质量和这些组件如何组合上进行竞争。大致来说，可以将这些竞争强度的领域分散在五个组件上：

数据输入：代理需要访问独特的数据集，或者更好地解析公共数据集（例如，抓取网络）。代理从哪里获取数据？它能否访问内部数据仓库——个人笔记系统或企业知识库——以使答案更好？
模型：在过去的一年里，当你听到“AI”时，它通常意味着这个组件——大型语言模型（LLMs），如GPT-4。在OpenAI等模型公司中，有各种各样的方法，我将马上介绍。
工具：将这些视为给手工匠（一个LLM）一套新的螺丝刀。这是我兴奋的一个领域。在2023年，我使用了一个名为Code Interpreter的OpenAI工具，它已经能够取代许多金融工作流程。Code Interpreter为LLM提供了一个编码环境，允许LLM修改电子表格。
界面：知道如何将这些能力整合到用户的工作流程中，与代理实际能做什么一样重要，甚至更重要。代理是否嵌入在典型的LLM聊天机器人中？它是否作为应用程序代码的一部分在幕后运行？AI是否需要在自己的单独UI和应用程序中？或者它应该集成到像Salesforce或Excel这样的现有工作流程应用程序中？
AI胶水：这是我自己的术语（你可以告诉因为它比其他的听起来更蠢），但在我与构建AI代理公司的创始人的访谈中，我听到最常见的事情是“AI代理是一个工程问题，而不是AI问题。”有一种感觉，尽管前述的每个组件都很重要，但重要的是弄清楚如何将它们全部粘合在一起。胶水是传统的确定性软件，它程序化了一组逻辑步骤。

这些组件有无限多种组合。与以前的软件公司不同，投资者和创始人都在承担科学风险以及产品风险。在2000年代的SaaS时代，我们知道云工作，我们知道如何在云上制作软件。唯一的问题是，你能否制作一个使用云的产品，以使客户受益。对于代理——无论是工具还是模型——我们还没有完全弄清楚如何使其工作，更不用说产品了。

这是一个长话，所以让我尽可能简单地重复一遍。

这东西目前还不起作用，但投资者打赌它可以。许多人认为我们只需要在模型或工具方面有一两个科学进步，就可以使代理大规模可用。

03 AI代理公司如何竞争？

好吧，实际上，代理确实起作用了，但只有大约10%的时间。作为参考，一个备受瞩目的初创公司Cognition Labs能够解决14%的“在开源项目中发现的真实世界的GitHub问题”。不是很好，但比它的同行好多了。

投资者打赌创始人可以使技术始终起作用，并且正确使用该技术的产品。有一些低级别的代理工作流程与GPT-4或其他LLMs一起，你可以用ChatGPT（像我之前的天气例子）来做，但AI代理远未接管所有现有的知识工作者劳动力。这是SaaS问题的反面：价值是显而易见的，交付产品的能力是可疑的。在SaaS中，情况正好相反：价值通常不是显而易见的，公司在销售产品的能力上进行竞争。

请记住，所有这五个组件只是为了让事情启动！一旦公司可以使用AI代理为用户解决问题，它们就必须相互竞争——以及LLMs和所有其他软件工具。速度、成本和可靠性是重要因素。AI代理需要比人工劳动显著更便宜——并且同样，如果不是更可靠的话——才能完全取代现有解决方案。

这引出了另一个问题：你如何评价这些东西？正如我们之前所争论的，比较AI产品的评估从根本上是破碎的。我们几乎没有讨论人工智能的语言，更不用说比较产品所需的严格性了。

我们所拥有的是资本——我们可以通过观察资本流向来理解市场认为价值将如何累积。

04 跟随金钱

AI代理的一个巨大悲剧是，产品正在秘密中构建。从2015年到2020年，有一股强烈的文化氛围，即发表关于AI的研究论文，因此科学进步是共享的。现在，由于数十亿美元的赌注，这种情况已经改变。我们只能根据资金进行猜测。

主要有两种类型的AI代理公司：

1.模型优先初创公司：这些公司打赌模型组件是技术栈中最重要的部分，并且在改进LLMs方面有很大的收益。它们筹集了大量资金来补贴构建这些模型的成本。以下是领导者：

OpenAI（筹集了超过130亿美元）：据报道，它已经在构建一个可以接管用户鼠标点击事物、传输数据等工作的个人助理。它已经通过GPT商店向代理工作流程迈出了小步，但尚未发布一个功能齐全、适当品牌的AI代理产品。该公司正在准备GPT-5的发布，我听说将在今年夏天或初秋发布。
Anthropic（筹集了超过73亿美元）：它遵循与OpenAI相同的策略，但它更小，排在第二位。该公司尚未就代理产品发表任何明确的声明，但我听说它也在进行代理研究。
Adept（筹集了4.13亿美元）：Adept打赌需要一种新型的模型——那种在用户行为上训练的模型。AI通过观察用户如何与他们的浏览器互动来学习。
Imbue（筹集了2.2亿美元）和Magic AI（筹集了1.45亿美元）都专注于软件工程AI代理，并正在训练自己的模型。

这些初创公司试图回答的基本问题是，哪种模型是正确的。它是一个像GPT-5这样的超级强大的模型吗？它是一个像Adept这样的用户行为模型吗？它是一个像Imbue和Magic这样的推理和代码优先模型吗？没有人知道！这就是乐趣所在。

2.工作流应用公司：这些公司使用现有模型，并打赌其他组件（如胶水和UI）最终将是最重要的。

我们可以将这些公司放在一个谱上：左手边是“垂直任务自动化”，右手边是“AI代理的水平销售”。垂直工作应用在单一行业内自动化各种任务——想想AI代理用于法律，如Harvey（筹集了超过8000万美元）。中间是针对特定任务的AI代理，例如软件工程。Cognition Labs（筹集了超过2000万美元）专注于执行一个大型任务——编写代码——这跨越了许多行业。在最右边的是作为服务销售AI代理的公司。你支付以访问可以执行各种水平任务的AI代理，如日历、笔记或PDF摘要。Lindy（筹集了5000万美元）提供一种工具，该工具拥有数十个AI代理，是这类公司的示例。有许多这样的参与者，可以说，每个软件公司都可能是AI代理公司。

没有一个工作流自动化公司训练自己的模型——它们使用开源或其他私有提供商。当我与Lindy首席执行官Flo Crivello讨论他的公司不训练模型的决定时，他告诉我：

“我对这些模型的大致心理模型是，它们就像CPU——它们正在呈指数级变得更好，或多或少是通用的（最好的模型往往是在所有事情上都是最好的），并且训练成本非常高（不要在家里尝试这个）。我认为，在代理的产品和工程方面有足够的工作要做，而不必担心在那个基础上尝试构建你自己的基础模型。现在，那个心理模型破裂的地方是，你也可以在任何模型上获得很好的性能提升，如果你在特定任务上对其进行微调（我们正在做）。但这与训练基础模型是完全不同的事情。”

一个任务越依赖于大型和私有数据集，工作流应用就越可能占主导地位，而不是模型。最好的软件公司作为记录系统运作，作为最重要数据的存储库（客户ID、产品分析或信用卡号），它们将能够提供更优越的产品。然而，如果数据集很小——比如说，只是一个电子表格——那么很容易将其放入模型优先公司的环境中。有一个电子表格问题吗？将其上传到ChatGPT。如果结果表明模型是一个长期的区别因素，那么对于第一类提供商来说，构建工作流软件可能比反之更容易。

无论投资者对组件的赌注是什么，有一个元风险像黑暗而复仇的神一样笼罩着整个行业：规模法则。

05 复合增长的问题

现代的一个奇迹是摩尔定律：观察到芯片上的晶体管数量大约每两年翻一番，导致计算能力和效率呈指数级增长。近60年来，我们的计算机变得越来越强大。

人们忘记的是，随着这些芯片变得更加强大，数据处理的成本变得戏剧性地便宜。

在大型语言模型中，似乎也出现了类似的现象。智能的单位成本正显著下降。例如，Anthropic的Claude 3的Haiku模型的成本是OpenAI的GPT-4 Turbo的四分之一，同时在用户评级的智能基准上超越了GPT-4。在某个时刻，模型将变得如此全能和智能，以至于工具、数据、UI和胶水将变得无关紧要。辅助代码和模型中的智能水平之间存在反向关系：代码越多，模型可以越笨；代码越少，模型必须越聪明。

至于我们何时（如果？）达到除了模型之外所有其他组件都无关紧要的点，任何人都只能猜测。如果你相信规模假设——模型越大，我们就越接近超人智能——那么有一条清晰的路径可以达到那里。

最后一句警告：当你看这些公司的演示时，很容易被怀疑和不屑。错误率很高，就像我前面说的，它们确实不起作用。但AI是一个复合改进曲线的行业。GPT-5的早期报告表明它“明显更好”，并且正在为AI代理的用例明确准备。去年，Anthropic告诉其投资者，它准备创建一个比GPT-4好10倍的模型。如果它坚持其时间表，那么该模型应该在今年完成。

如果这些预测成立，将会有大量聪明得可怕、便宜得可怕的智能。代理是下一件大事，它们比你想象的来得更早。做好准备。

Last but not least

现在智能体呼声这么大，百度CEO李彦宏甚至高呼，“智能体是AI应用最主流的形态，即将迎来爆发点。”

那你觉得智能体会不会还像前段时间互联网的一个梗一样，“国外都在搞研究，而国内都在画美女。”😅

关注公众号，用极客视角洞察未来！

往期精彩文章推荐：

1.智能体即将爆发，如何从中获利？

2.一文深度了解Agent智能体以及认知架构

3.知识经济结束，已经悄悄来到配置经济！

http://mp.weixin.qq.com/s?__biz=MzkyNDYwMzg3OA==&mid=2247488040&idx=1&sn=5fbbd21826977d28526c1c4c67bf98c9

GeekSavvy

GeekSavvy是一个新世代AI极客社区，主要覆盖AI极客、创业者和投资人。我们会用Geek视角👉见识行业趋势、洞察AI产品和预见未来科技风向标🚀！

最新文章

这或许就是每位创业者最真实的经历

大厂裸辞靠AI年入百万后，不会编程的他用AI做出一个爆火App

从硅谷视角看智能体（AI Agent）！

从0到1开始创建全栈Web应用平台并免费运行它！

知识经济结束，已经悄悄来到配置经济！

智能体即将爆发，如何从中获利？

先被画饼再到PUA，我才明白职场的第一课

从0到1完成500万美元的收入经验分享

别再卷国内了，出海，赚美金吧！

一文深度了解Agent智能体以及认知架构

最新深度访谈 | YC CEO对话OpenAI CEO山姆奥特曼

RAG在未来会消失吗？附RAG的5种切分策略

在未来，通才和专家谁更有优势？

腾讯混元又悄悄开源两个模型，MoE和3D模型！

吴恩达 |《The Batch》推出关于AI万圣节特别版文章

首次公布三个月后，OpenAI正式推出ChatGPT search

AI创业的尽头还是广告/营销吗？

我们如何生活在社交媒体矩阵中...

设计为何如此重要，除非你不追求美！

AI能像人一样操控电脑了！熬夜实测Claude新版本，只能说太牛逼！！

打个喷嚏 achei~，谁又在想你了？

初创公司的产品应该开启收费吗？

情绪又可以释放了，「歌词爆改机」它来了！

初创团队正在丢掉自己仅存的一点优势！

揭秘Kimi探索版不好用的背后的原因

Sam Altman再一次被推向风口浪尖，人工智能安全再一次敲响警钟！

从AI搜索开始到AI信息官，我们只想实现一个事情…

OpenAI开源多Agent框架Swarm，熬夜实测整理出几大亮点！

Claude CEO的最新万字长文，比山姆奥特曼更理性实际！

马斯克Robot对话Kimi探索版，一起探索世界

国内首部以“生成式人工智能”为应用背景的知识产权标准，诚邀参编！

YC合伙人谈论如何撰写高转化率冷邮件 | 实用指南件

国外增长大佬专为新手设计的Google SEO 指南丨快速上手

NotebookLM+AI播客到底是什么神仙组合？

来自YC给创业公司商业模式和定价的学习指南

前Uber增长大佬Andrew的产品冷启动实用指南

不懂代码的人也可以用Cursor，5分钟快速完成一个简单的支付页面

今日思考：AI信息官能否成为这个时代的救世主？

一个常识问题竟让大模型集体翻车？9.9vs9.11?多家测试对比

每一天都是最难的一天 | 用Geek视角看AI+影视

AIGC、UGC、PGC三者之间新的排列组合将诞生新范式内容社区

大模型参加高考，能否轻松上清北，还是需要复读？

数据严谨才是最大的豪华 | 多地高考分数线公布，AI填报志愿引热议

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉