点击蓝字关注更多及时AI资讯!
当下,关于AI代理,Agent的讨论如火如荼,大到各家大厂的一站式智能体平台、小到创业团队或者个人的Agent产品项目都层出不穷,小纸条之前也为大家分析过很多次相关的主题。不过随着微软下架GPTs,一些国内大厂也计划下架智能体中心,对于智能体的未来,大家小纸条今天想要跟大家正经聊聊,看看代理是什么,它们能做什么,我们今天可以使用哪些项目,以及它在我们宏伟AGI计划中处于什么位置。
写这篇文章的另外一个原因是,现在我们或多或少置身于”信息茧房“之中,主流信息给我们大量的Agent的输入话题相近,但是其实许多有关Agent的重要信息其实并未被大众所熟知,这其中不仅有积极的一面,也有不那么乐观的一面。今天这篇文章希望可以为大家提供一个全面的概览,揭示当前AI代理的实际情况。
简单地定义一下,AI代理基本上就是一个高级的AI助手。想象一下,我们给“助手”分配了一个任务,然后说:“我需要你出去并自主地执行这个任务,无论是通过你自己的环境,能够使用某些工具,还是我需要您在一个团队中工作,然后当然完成您的目标。”
之前小纸条为大家介绍过Andrew吴恩达对AI代理工作流AI Agent Workflow的分享(https://mp.weixin.qq.com/s?__biz=MzkyMzY4ODAxMg==&mid=2247484647&idx=1&sn=b9db00173461dd3d17d0703a803b9422&chksm=c1e009c4f69780d211e648a7d84db84bbf056b78ffe7644108a8ab9365f748008d20cf8b14f2&token=229295338&lang=zh_CN#rd),AI Agent Workflow是在描述AI如何通过特定流程实现目标时常用的术语,对于理解当下AI的应用至关重要,这也是我们所见到的关于AI代理工作流程最核心的内容之一。
相信许多人可能已经尝试过了像是Chat GPT、Kimi、豆包等对AI对话软件,这种交互方式属于一种与大语言模型间的零样本提示,也是目前最主流的一种交互方式。AI可以一次性的完成问题的回答,就好比要求一个人不磕巴的完成一次即兴演讲,各大AI对话助手做的也都非常出色。
与此相比的是工作流模式,工作流的模式相对来说更加注重迭代过程。 比如我们可以要求AI先撰写一个大纲,然后进行必要的单词研究,搜索网络信息,撰写初稿,再进行审阅和修改。这种流式的,迭代循环方式的任务安排,能够让模型带来更高质量的结果输出。
安德鲁在之前关于Agent优化的演讲上也分享过,尽管GPT 4在在综合方面比GPT 3.5要做得更好,但经过代理工作流程的应用,最后使得GPT 3.5的表现与GPT 4相当。
总体来看,无论是在基准测试中的表现,还是不同类型的代理工作流程的描述,我们都可以看到零样本提示只是提示模型的一种方式,而语言代理、搜索、LDB和反思等不同方式的加持,是可以让LLM更有效的反馈循环,能够带来更大的成果。小纸条之前也专门写过这几种Agent的优化方式,感兴趣的同学可以去看看
来自AI社区的一篇论文《代理的混合》表示,利用不同的AI模型来多次精炼响应,使用不同的代理层。这里可以看到有三层,可以理解为使用三个不同的LLM系统,输入提示后,三个不同的LLM代理每次都对其进行评估,不断优化,对响应进行三次评估。
即使组合在一起并协作的模型比最初的大模型更简单,通过代理混合的方式也能显著改进模型的质量。论文还提到,使用代理的混合,仅使用开源的LLMs,在alpaca评估2.0中取得了领导者的地位,与GPT 40相比,达到了65.1%的分数,40只有57.5%。这表明,通过使用开源的LLMs,即使这些模型比GPT 4简单得多,也能通过增加推理能力获得更好的基准测试结果。总结来说就是,使用代理工作流程能够超越强如GPT 40的单一模型的效果,可见代理工作流程的协作效应的重要性。团结就是力量啊!
目前实际可用的AI代理技术
接下来咱们再来探讨一下目前实际可用的AI代理技术。
首先介绍的是Crew AI,这是一款协作工作系统,它通过让不同的AI代理高效协作,共同完成复杂任务。在Crew AI中,每个代理都扮演着特定的角色,就好比一个由研究人员、作家和规划者组成的专业团队。Crew AI的核心功能包括基于角色的代理设计,为每个机器人分配明确的角色,并赋予它们团队协作的能力,使它们能够相互通信、共享任务信息并提供协助。
Crew AI是一个可以本地运行的工具,适用于广泛的用户群体。但是呢,尽管有一部分人开始使用Crew AI,但在社区内还未能观察到很多在现实世界中应用Crew AI的案例。倒不是Crew AI的问题,只能说目前AI代理在现实世界中的应用案例还不够丰富。
https://www.crewai.com/
再来介绍一个Cassidy AI,它展示了一种无需编码,仅通过简单的提示就能实现日常代理工作流程的方法。举个例子,我构建了一个用于讨论商业想法的系统,在这个工作流程中,代理一号负责考虑商业想法及其优势,代理二号负责讨论这些想法,最终代理们共同达成共识。使用Cassidy AI,我们不用关心这个系统是如何构建的,连接工作流程的难度如何,只需用自然语言描述它,然后点击创建,就可以完成整个过程。
不出意外的话,未来大多数软件应用程序都将采用这种方式构建,使用自然语言进行提示,个人觉得是个交互形式上的大的趋势。通过官网的demo我们可以看到,通过Cassidy A可以几秒钟内就成功构建了代理工作流程。它不仅得到了代理之间的分析,还通过GPT 4进行了代理间的讨论,并最终给出了最佳的对于用户任务的回答及其原因。
https://www.cassidyai.com/
我们再来实际测试下这个工作流程。假设我有一个关于AI的YouTube频道,并考虑启动一个帮助人们学习AI的私人社区。我将向这个AI系统询问,我应该启动这个社区,还是应该启动Skare线,哪个商业想法更好。你可以看到,工作流程已经完成,AI系统经过分析后给出了建议:根据市场需求、品牌一致性、创新和可扩展性等因素,长期成功的最好商业想法是启动一个私人的AGI社区。
AI代理设备
AI代理设备,顾名思义,就是通过将AI助手封装在硬件中的设备,AI代理技术的发展已经达到了令人惊叹的阶段,它为我们的日常生活带来了诸多便利。例如Rabbit R1设备,被誉为目前最好的AI代理之一,它能够为用户的旅行计划提供全面服务。虽然在产品发布时并未达到预期的炒作效果,但它也还是具备在一些场景中完整独立的完成任务的能力的。比如说,咱们想要计划一次去伦敦的旅行,可以向Rabbit R1描述我们的意愿,它就可以为我们找到航班、酒店和汽车租赁的选项,并帮助咱们完成预订。总体来说,尽管它在早期受到了一些批评,但也还是为我们展示了AI代理在未来硬件设备中的潜力。
目前,我们也期待大型企业能够在现实世界中实施AI代理的落地。尽管在Twitter上有人提出疑问,认为目前似乎还没有找到AI代理可靠地执行任务的真实用例,但Google最近的演示显示了他们的客户服务代理能够实时帮助客户处理咨询,也算是个积极的进展。
在演示中,客户服务代理不仅能够处理购物车中的订单,还能提供个性化建议和优惠,甚至完成结账流程,足以见得AI代理在提升用户体验方面是存在巨大的潜力的。
再来看看AI编程领域,不久前,Devin的演示引起了社区的广泛关注,这是一个围绕GPT 4构建的AI软件工程师代理工作流程,它能够执行实际的软件开发任务,从规划到执行,甚至包括调试和部署。
各大公司智能体研究进展
OpenAI也在探索AI代理的新领域,他们正在研究能够接管客户设备并自动执行复杂任务的代理。这些代理能够执行数据传输、费用报告填写等任务,就像我们自己工作中使用不同应用程序一样。
Meta也在开发能够无人监督地完成任务的AI代理,包括协助编码和软件开发的工程代理,以及可能帮助企业在Meta应用上做广告的货币化代理。
Imbu公司则专注于训练大型基础模型,优化推理能力,并在此基础上构建代理,以加速研究搜索。他们的目标是构建可信赖的Agent代理,这些Agent代理不仅能够输出结果,还能迭代、反思并决定下一步行动。
Agent代理发展的挑战
然而,我们也必须认识到,AI代理的发展面临着重大挑战。Dario Amodei和Mustafa Suleyman等专家指出,要让AI代理在现实世界中可靠地行动,需要模型具有极低的错误率,并且能够执行一系列复杂的任务。这可能需要模型规模的进一步扩大,以及更长时间的研发和调优。
近期,人工智能领域出现了一些新动向,业界人士纷纷讨论起GPT6,预示着我们可能在两年半后迎来真正有效的大规模AI Agent代理。这也进一步证实了AI代理技术正朝着更高层次发展。
目前,仅有少数公司具备训练超大型模型的能力,并在AI代理领域展开竞争。这也标志着一个真正的增长领域即将到来,但是要实现这一点确实非常困难。例如,当一个模型被要求完成一系列动作,如预订餐厅,它需要进行多个步骤:检查日历、确认餐厅可用性、登录预订系统、输入支付信息等。每一步都需要精确执行,不能有差错。
AI模型虽然已经能够创作诗歌、生成文本并给出答案,但要达到每个答案都精确无误的程度,还需要在计算和数据上扩大两个数量级。Transformers模型的发展历程显示,每增加10倍的计算和数据,我们就能获得更高的精确度,而不仅仅是新出现的能力。
目前,我们已经能够看到一些特定领域的narrow行动形式的AI代理,它们能够进行准确的API调用。但问题在于,这些代理是否能够以99%的准确性完成任务。如果准确率只有80%,那么每五次就有一次出错,这对消费者来说是不可接受的。
业内领袖对代理发展的看法
Demis Kabus分享了他们对AI代理的看法,我认为这可能比OpenAI的预期稍早一些。特别值得一提的是Project Astra项目,它展示了我们对通用助手或通用AI代理可能的形态以及它们如何帮助日常生活的愿景。其关键在于多模态能力,即能够理解我们所处的各种模态并与之互动。这是传统语言代理所缺乏的,传统语言代理是无法理解用户所处的空间和环境的,这也限制了它们的应用范围和作用。
比尔·盖茨甚至在采访中讨论了AI代理将如何改变我们的工作和生活方式。他预见到,在未来,我们可能会有AI心理治疗师、朋友、专家等,它们由深度AI驱动,它们的有用性将与它们对我们的了解程度成正比。他实际上讨论了AI代理将如何真正改变一切。
NVIDIA的CEO Jensen Hoang也分享了他们对AI代理的愿景,他认为未来的应用程序将不再是prompt指令驱动,而是能够自我组织,组建AI团队来解决问题。这些AI代理将能够分解任务、分配工作,并最终将结果呈现给用户。目前的AI多数是一次性的,根据给定的提示立即生成推荐或答案。然而,未来的AI将能够进行多步骤的推理和自我规划,通过复杂的场景进行计划,从而变得更加智能和代理化。我们将看到AI自己使用工具、与其他AI合作、访问信息以及控制访问权限等等。
Google也表示,团队一直有这样的愿景:创建能够通过视觉来理解周围世界的AI,最终包括音频和其他所有传感器。这也是Google从一开始就建立Gemini大型模型的原因,它能够处理任何输入和事件。Google对接下来两年的助理有这样的愿景和计划,相比GPT5的时间倒是要短得多。
小结
总的来说,AI代理技术正朝着更智能、更精准的方向发展。
在不远的将来,我们可能都会又一个有效的生活助理,比如到点儿了问我们要不要订外卖,回家了问我们问不问开电视。计算机今天已经看到了咱们写的每封电子邮件消息,写的每一篇笔记,数字渠道也记录了我所有的在线会议和电话,所以我们已经向数字系统披露了很多关于自己的信息,所以生活Agent日后能做到对我们深入的了解也是完全具备可行性的。
对于公司来说,未来与代理的协作模式,很大的概率是在内部部署大量AI代理,这些代理将能够独立接受任务,智能地进行任务分解和执行。中央应用程序或团队领导者将负责任务的分配和协调,团队成员完成任务后,再将结果汇报给领导者,最终由领导者将信息清晰地呈现给用户,整个过程就好比咱们人类工作流程的翻版。
AI代理技术客观来讲仍处于早期阶段,但它已经展现出巨大的潜力和发展前景。随着技术的不断进步和挑战的逐步克服,我们有理由相信,未来AI代理将在更多领域发挥关键作用,为我们的生活带来更多便利,咱们还是要提前让我们的思维适应和准备好迎接这一天的到来,当然最好可以提前入局,主动拥抱,学着去驾驭AI能力而不要惧怕它的能力。
扫码关注更多AI资讯
我们一起学AI!