构筑大模型Agent,已经成为学术界在LLM领域的重要发力点。
在AI Ascent 2024大会上,吴恩达就表示:每个AI从业者都应该关注Agent。
本文将详细梳理LLM-based-Agent,并为每个环节附有对应论文与开源代码,共214篇。
论文PDF和代码文件都下载好放在网盘了,扫码即可获取。
扫码下载214篇LLM-Agent论文与代码
首先,我们可以把一个大模型Agent的框架分为三个部分:控制端、感知端和行动端。
控制端由 LLMs 构成,是Agent的核心。具体分为5个能力:自然语言交互、知识、记忆、推理与规划、可迁移性和泛化能力。
在感知端,Agent具有多模态感知能力,能够从文本拓展到视觉、听觉等领域。
行动端则是除了文本输出外,大模型Agent还拥有工具使用与具身行动的能力。
有关LLM+Agent的框架,附有对应论文134篇与部分开源代码,扫码即可领取。
扫码下载214篇LLM-Agent论文与代码
下面,我们来看Agent的实践应用。根据应用的场景不同,可分为:单Agent场景、多Agent场景与人机交互场景。
单Agent场景的实用价值很高,而且非常多样化,可分为任务导向、创新导向、周期导向。
多Agent场景下,如何高效地相互协调工作是重点。Agent之间的交互形式可分为:互补式协作交互与促进式对抗交互
人机交互场景下,人的参与能够确保Agent的行动与结果符合需求。人类作为指导者,Agent作为执行者,称为指令执行者范式;Agent从人类层面与人类合作完成任务,称为平等伙伴范式。
这个部分,本文附有51篇paper帮助大家详细学习,扫码即可领取。
扫码下载214篇LLM-Agent论文与代码
此外,LLM Agent还具有个体性和社会性。Agent具有多种内化行为,如计划、推理和反思。并具有认知、情感和性格等方面的个性。
而Agent工作的环境也不同,分为基于文本的环境、虚拟沙盒环境与真实物理世界。
有关Agent的个体性和社会性,本文附有29篇paper,扫码领取。
扫码下载214篇LLM-Agent论文与代码