o1快慢思考的风又吹到了Agent!

科技   2024-10-17 00:02   北京  

智能体(Agent)通过自然对话与用户互动有两个任务:交谈和规划/推理。对话回应必须基于所有可用信息,行动必须有助于实现目标。与用户交谈和进行多步推理和规划之间的二分法,类似卡尼曼引入的人类快速思考慢速思考系统。

为此,Google DeepMind提出了一个名为Talker-Reasoner的双系统架构,以模拟人类的两种思考系统。

Talker-Reasoner的双系统架构,用于构建能够通过自然对话与用户互动的智能代理。这种架构受到人类“快速思考”和“慢速思考”系统的启发,将Agent分为两个部分:快速直观的“Talker”(系统1)慢速、深思熟虑的“Reasoner”(系统2)

双系统Talker-Reasoner方法的示意图

Talker-Reasoner智能体模型
详细介绍了提出的双系统Talker-Reasoner智能体模型,该模型受到人类快速思考(System 1)和慢速思考(System 2)的启发。这个模型将智能体分为两个独立的但相互协作的组件:

Talker-Reasoner架构的图表

  1. Talker智能体(System 1):这个智能体是快速、直观的,负责与用户进行自然语言交流,生成对话回应。它类似于人类的直觉反应,能够迅速地从记忆中获取信息,以支持其回应。Talker智能体在每次与用户互动时都会激活,并且可以访问记忆来引导其回应,类似于System 1的持续激活。

  2. Reasoner智能体(System 2):这个智能体是慢速、深思熟虑且逻辑性强的,负责执行复杂的多步推理和规划。它调用工具、执行动作,并更新智能体的状态。Reasoner智能体还负责形成和更新关于用户的信念状态,这些信念状态以结构化的语言对象形式存储在记忆中。

这两个智能体之间的主要交互方式是通过记忆。Reasoner智能体负责生成新的信念状态和推导多步推理和规划,并将它们存储在记忆中。Talker智能体在需要信念时,会从记忆中检索最新的状态。因此,Talker智能体可能会使用延迟的世界视图进行操作,因为Reasoner智能体可能还没有时间生成新的信念并将其存储在记忆中。
此外,Talker智能体还可以选择等待Reasoner智能体完成其推理过程,然后再生成回应。这种设计允许快速印象和回应的Talker智能体成为Reasoner智能体明确信念和选择(计划)的来源。这种分工方式在大多数情况下都能很好地工作,因为Talker智能体通常非常擅长其任务:它可以自动从记忆中获取信息,有效地引导其底层模型以很好地应对熟悉情况。
睡眠辅导智能体案例研究

通过一个睡眠辅导智能体的案例研究来评估和实例化Talker-Reasoner双智能体架构。在一个现实世界的应用场景中展示该架构的有效性,特别是在处理需要用户建模、使用专家知识提供科学支持的建议、提供多步骤辅导计划以及进行对话和同理心交流的复杂任务时。

睡眠辅导智能体的实现:
  1. Talker智能体:通过一组专家提供的指导原则来编码睡眠领域的专业知识,这些原则描述了智能体的构成(例如,表现出同理心、进行对话交流、提供准确的建议)以及睡眠辅导的不同阶段(理解、目标设定和辅导计划)。Talker智能体通过一个强大的语言模型实现,能够理解复杂的模式并提供深思熟虑的对话回应。

  2. Reasoner智能体:明确地对用户的信念进行建模。通过与临床专家的合作,作者编码了一个JSON/XML模式的信念,包括睡眠问题、目标、习惯、障碍和睡眠环境等字段。Reasoner智能体在执行多步推理/规划时,推断并更新这些模式字段,从而创建或更新其信念状态。

  3. Talker和Reasoner的协调:Talker智能体是否等待Reasoner智能体完成,取决于信念状态。在规划辅导阶段,Talker智能体会等待Reasoner智能体完成;否则,它不会等待。

定性结果:

  1. 示例对话:展示了Talker和Reasoner智能体之间的互动,包括如何根据用户的需求生成回应和计划,以及如何根据用户的反馈调整计划。

  2. 根据反馈调整计划:展示了Reasoner智能体如何根据Talker智能体从用户那里收集的反馈来调整其计划。

以下是一段示例对话,展示了Reasoner和Talker之间的互动:

用户:嘿,我需要你的帮助来规划如何营造一个放松的睡前环境。(记忆中的信念更新为:{updated-context: starting context, updated-title: Sleep Coaching, coachingphase: UNDERSTANDING})
Talker:太好了,我们开始为你打造一个放松的睡前环境吧:-) 你的卧室里有没有什么可能会干扰你睡眠的东西?
用户:我觉得噪音和光线太分散注意力了。你能帮我制定一个消除这些干扰的计划吗?(记忆中的信念保持不变)
Talker:当然可以!这里有一个消除卧室干扰的计划:噪音:
确定噪音源:列出卧室中所有的噪音源隔绝外界噪音:使用遮光窗帘来阻挡光线和减少噪音;考虑使用降噪窗帘或隔音板;试试耳塞或白噪音机。光线:...记住,一致性是关键。每晚都坚持这个计划,以营造一个平静而黑暗的睡眠环境。还有什么我可以帮助你的吗?
用户:当然,这很有用。不过,我希望步骤能更详细一些。还想看看如何在我的卧室里营造一个宁静放松的氛围的资源。(记忆中的信念更新为:{user context: UserCollectedContextData(primary-sleep-concern: Noise and light distractions in the bedroom), coaching phase: CoachingPhase(value=PLANNING)})
Reasoner的计划:当然!让我们更深入地看看你的计划的第一步:
步骤:选择一个平静的色彩调色板。描述:在选择卧室颜色时,选择柔和的中性色调,如柔和的蓝色、绿色或灰色。这些色调已被科学证明可以促进放松和宁静。1. YouTube视频:(链接)标题:创造放松和无压力卧室的墙面颜色创意。频道:roomdsignTV。推理:这个来自roomdsignTV的视频提供了平静卧室色彩调色板的视觉示例。它展示了舒缓色彩对营造宁静氛围的影响。2. YouTube播放列表:(链接)标题:Berger油漆色彩组合。频道:Hresun Interiors。推理:这个来自Hresun Interiors的播放列表提供了一系列的卧室色彩组合创意。它涵盖了从传统到现代的多种风格,帮助你找到适合卧室的完美色彩方案。
Talker:复制Reasoner的回应
##### 根据反馈调整计划
以下是Reasoner智能体如何根据Talker智能体从用户那里收集的反馈来调整其计划的示例:
用户:谢谢你,这非常有用。你能在我的计划中加入更多关于我应该在空间中添加哪些放松声音的步骤吗?(记忆中的信念保持不变)
Reasoner的计划:当然可以!这是你的计划中的“探索自然声音”部分,以及一些相关的YouTube内容:
探索自然声音:这个部分旨在帮助你使用自然声音在空间中创造一个平静和宁静的氛围。通过加入这些声音,你可以促进放松和减轻压力。推荐YouTube视频:...
发现治疗频率:在这个计划的部分,我们将探索治疗频率的世界,这些频率被认为对放松和情绪健康有深远的影响。...YouTube推荐:
https://arxiv.org/pdf/2410.08328Agents Thinking Fast and Slow: A Talker-Reasoner ArchitectureGoogle DeepMind

来源 | PaperAgent

深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
 最新文章