CMU 的这篇 AI 论文介绍了 AgentKit:一种使用自然语言构建 AI 代理的机器学习框架
人工智能中的基于代理的系统是 AI 代理在数字环境中自主执行任务的系统。开发能够理解复杂指令并与其环境动态交互的智能代理是一项重大的技术挑战。代理设计中普遍存在的一个问题是依赖复杂的编程技术。传统上,代理是使用代码密集型方法构建的,需要对特定 API 非常熟悉,并且通常会限制灵活性。这种方法可能会扼杀创新和可访问性,限制 AI 代理在专业领域之外的潜在应用。
现有研究包括在代理系统中集成 GPT-4 和思想链提示等 LLM,以增强规划和交互。像 LangChain 这样的框架已经改进了代理操作,实现了更灵敏的任务管理。研究人员的创新将这些模型应用于开放世界游戏等复杂场景,使用结构化提示有效地指导代理行为。这些模型和框架展示了向更具适应性和直观性的 AI 架构的重大转变,促进了不同环境中的动态响应和详细任务执行。
卡内基梅隆大学、NVIDIA、微软和波士顿大学的研究人员共同合作推出了 AgentKit,这是一个框架,使用户能够使用自然语言而不是代码来构建 AI 代理。这种方法的独特之处在于它采用了基于图形的设计,其中每个节点代表由语言提示定义的子任务。这种结构允许将复杂的代理行为直观地拼凑在一起,从而增强了用户的可访问性和系统灵活性。
AgentKit 采用结构化方法,将每个任务映射到有向无环图 (DAG) 节点。这些节点代表单个任务,根据任务依赖关系相互连接,确保逻辑进展和系统执行。如前所述,节点利用 LLM(特别是 GPT-4)来解释和生成对自然语言提示的响应。该框架在执行过程中动态调整这些节点,允许实时响应环境变化或任务需求。每个节点的输出都会输入到后续节点,从而保持连续高效的工作流程。该方法既注重任务管理的灵活性,也注重执行复杂操作序列的精确性。
在测试中,AgentKit 显著提高了任务效率和适应性。例如,与现有方法相比,Crafter 游戏模拟将任务完成率提高了 80%。在 WebShop 场景中,AgentKit 的性能比最先进的模型高出 5%,展示了其在实时决策环境中的有效性。这些结果证实了 AgentKit 通过直观设置管理复杂任务的能力。它们说明了它在各种应用领域的实际适用性,在基于代理的任务执行方面实现了强大且可衡量的改进。
总而言之,AgentKit 代表了 AI 代理开发的重大进步,通过自然语言提示而不是传统编码简化了复杂代理的创建。通过将基于图形的设计与 GPT-4 等大型语言模型相结合,AgentKit 允许用户动态构建和修改 AI 行为。该框架在游戏和电子商务等各种场景中的成功应用证明了其有效性和多功能性。这项研究强调了直观、可访问的 AI 技术在各个行业得到更广泛采用的潜力。