o1快慢思考的风又吹到了Agent！

科技 2024-10-17 00:02 北京

智能体（Agent）通过自然对话与用户互动有两个任务：交谈和规划/推理。对话回应必须基于所有可用信息，行动必须有助于实现目标。与用户交谈和进行多步推理和规划之间的二分法，类似卡尼曼引入的人类快速思考和慢速思考系统。

为此，Google DeepMind提出了一个名为Talker-Reasoner的双系统架构，以模拟人类的两种思考系统。

Talker-Reasoner的双系统架构，用于构建能够通过自然对话与用户互动的智能代理。这种架构受到人类“快速思考”和“慢速思考”系统的启发，将Agent分为两个部分：快速直观的“Talker”（系统1）和慢速、深思熟虑的“Reasoner”（系统2）。

双系统Talker-Reasoner方法的示意图

Talker-Reasoner智能体模型

详细介绍了提出的双系统Talker-Reasoner智能体模型，该模型受到人类快速思考（System 1）和慢速思考（System 2）的启发。这个模型将智能体分为两个独立的但相互协作的组件：

Talker-Reasoner架构的图表

Talker智能体（System 1）：这个智能体是快速、直观的，负责与用户进行自然语言交流，生成对话回应。它类似于人类的直觉反应，能够迅速地从记忆中获取信息，以支持其回应。Talker智能体在每次与用户互动时都会激活，并且可以访问记忆来引导其回应，类似于System 1的持续激活。
Reasoner智能体（System 2）：这个智能体是慢速、深思熟虑且逻辑性强的，负责执行复杂的多步推理和规划。它调用工具、执行动作，并更新智能体的状态。Reasoner智能体还负责形成和更新关于用户的信念状态，这些信念状态以结构化的语言对象形式存储在记忆中。

这两个智能体之间的主要交互方式是通过记忆。Reasoner智能体负责生成新的信念状态和推导多步推理和规划，并将它们存储在记忆中。Talker智能体在需要信念时，会从记忆中检索最新的状态。因此，Talker智能体可能会使用延迟的世界视图进行操作，因为Reasoner智能体可能还没有时间生成新的信念并将其存储在记忆中。

此外，Talker智能体还可以选择等待Reasoner智能体完成其推理过程，然后再生成回应。这种设计允许快速印象和回应的Talker智能体成为Reasoner智能体明确信念和选择（计划）的来源。这种分工方式在大多数情况下都能很好地工作，因为Talker智能体通常非常擅长其任务：它可以自动从记忆中获取信息，有效地引导其底层模型以很好地应对熟悉情况。

睡眠辅导智能体案例研究

通过一个睡眠辅导智能体的案例研究来评估和实例化Talker-Reasoner双智能体架构。在一个现实世界的应用场景中展示该架构的有效性，特别是在处理需要用户建模、使用专家知识提供科学支持的建议、提供多步骤辅导计划以及进行对话和同理心交流的复杂任务时。

睡眠辅导智能体的实现：

Talker智能体：通过一组专家提供的指导原则来编码睡眠领域的专业知识，这些原则描述了智能体的构成（例如，表现出同理心、进行对话交流、提供准确的建议）以及睡眠辅导的不同阶段（理解、目标设定和辅导计划）。Talker智能体通过一个强大的语言模型实现，能够理解复杂的模式并提供深思熟虑的对话回应。
Reasoner智能体：明确地对用户的信念进行建模。通过与临床专家的合作，作者编码了一个JSON/XML模式的信念，包括睡眠问题、目标、习惯、障碍和睡眠环境等字段。Reasoner智能体在执行多步推理/规划时，推断并更新这些模式字段，从而创建或更新其信念状态。
Talker和Reasoner的协调：Talker智能体是否等待Reasoner智能体完成，取决于信念状态。在规划辅导阶段，Talker智能体会等待Reasoner智能体完成；否则，它不会等待。

定性结果：

示例对话：展示了Talker和Reasoner智能体之间的互动，包括如何根据用户的需求生成回应和计划，以及如何根据用户的反馈调整计划。
根据反馈调整计划：展示了Reasoner智能体如何根据Talker智能体从用户那里收集的反馈来调整其计划。

以下是一段示例对话，展示了Reasoner和Talker之间的互动：

用户：嘿，我需要你的帮助来规划如何营造一个放松的睡前环境。（记忆中的信念更新为：{updated-context: starting context, updated-title: Sleep Coaching, coachingphase: UNDERSTANDING}）
Talker：太好了，我们开始为你打造一个放松的睡前环境吧:-) 你的卧室里有没有什么可能会干扰你睡眠的东西？
用户：我觉得噪音和光线太分散注意力了。你能帮我制定一个消除这些干扰的计划吗？（记忆中的信念保持不变）
Talker：当然可以！这里有一个消除卧室干扰的计划：噪音：
确定噪音源：列出卧室中所有的噪音源隔绝外界噪音：使用遮光窗帘来阻挡光线和减少噪音；考虑使用降噪窗帘或隔音板；试试耳塞或白噪音机。光线：...记住，一致性是关键。每晚都坚持这个计划，以营造一个平静而黑暗的睡眠环境。还有什么我可以帮助你的吗？
用户：当然，这很有用。不过，我希望步骤能更详细一些。还想看看如何在我的卧室里营造一个宁静放松的氛围的资源。（记忆中的信念更新为：{user context: UserCollectedContextData(primary-sleep-concern: Noise and light distractions in the bedroom), coaching phase: CoachingPhase(value=PLANNING)}）
Reasoner的计划：当然！让我们更深入地看看你的计划的第一步：
步骤：选择一个平静的色彩调色板。描述：在选择卧室颜色时，选择柔和的中性色调，如柔和的蓝色、绿色或灰色。这些色调已被科学证明可以促进放松和宁静。1. YouTube视频：（链接）标题：创造放松和无压力卧室的墙面颜色创意。频道：roomdsignTV。推理：这个来自roomdsignTV的视频提供了平静卧室色彩调色板的视觉示例。它展示了舒缓色彩对营造宁静氛围的影响。2. YouTube播放列表：（链接）标题：Berger油漆色彩组合。频道：Hresun Interiors。推理：这个来自Hresun Interiors的播放列表提供了一系列的卧室色彩组合创意。它涵盖了从传统到现代的多种风格，帮助你找到适合卧室的完美色彩方案。
Talker：复制Reasoner的回应
##### 根据反馈调整计划
以下是Reasoner智能体如何根据Talker智能体从用户那里收集的反馈来调整其计划的示例：
用户：谢谢你，这非常有用。你能在我的计划中加入更多关于我应该在空间中添加哪些放松声音的步骤吗？（记忆中的信念保持不变）
Reasoner的计划：当然可以！这是你的计划中的“探索自然声音”部分，以及一些相关的YouTube内容：
探索自然声音：这个部分旨在帮助你使用自然声音在空间中创造一个平静和宁静的氛围。通过加入这些声音，你可以促进放松和减轻压力。推荐YouTube视频：...
发现治疗频率：在这个计划的部分，我们将探索治疗频率的世界，这些频率被认为对放松和情绪健康有深远的影响。...YouTube推荐：

https://arxiv.org/pdf/2410.08328Agents Thinking Fast and Slow: A Talker-Reasoner ArchitectureGoogle DeepMind

来源 | PaperAgent

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247548796&idx=3&sn=857973c92c76a189100f28022224d4ee

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

曝海康威视大裁员！涉及1000+员工，N+2赔偿！官方回应来了。。。

ChatGPT的超人类能力：看穿人心，OpenAI报告揭露真相！

o1快慢思考的风又吹到了Agent！

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

大快人心！11名硕博生联合举报的教授被解聘后，再被通报

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

50K*16薪，进字节了！！！

星舰不过是工程把戏？杨立昆教授：AI在智力、记忆远不如猫！

清华最新RAG框架：Adaptive-Note RAG，比Adaptive RAG还要好

2024年新书-《掌握大语言模型》免费pdf分享

追逐AGI！微软AI副总裁、Phi小模型领导者Bubeck将加入OpenAI

官方稀缺-《OpenAI大模型指南》中文版免费分享

只要敢捞偏门，篇篇都是顶会顶刊！

扩散模型训练新篇章：谢赛宁的'Representation matters'理念

大模型榜单还能信吗？一个假模型就能登顶排行榜

剧情反转！95 后4博士2博士后，涉事研究院院长：赵子健符合招聘要求，“我们特别对不起他”

【包教包会】速通LLM《从头开始构建大型语言模型》免费pdf分享

重磅！2025泰晤士世界大学排名公布

[送4本]《AI系统：原理与架构》于华为HC大会2024正式发布

LLM预训练与SFT数据配比调研

Anthropic CEO 万字长文：我认为AGI最早会在 2026 年出现，机器可以像人类一样协助办公

逆天20w赞！吴恩达+Open AI打造《大模型通关指南》

谷歌工程师杀妻案开庭！更多细节爆出！

[送5本] 《深度学习革命》2024诺贝尔物理学奖得主辛顿：无法坐下的AI先驱

Mamba2，比Transformer速度提高了8倍！

OpenAI今天Open了一下：开源多智能体框架Swarm

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

国务院任命！原C9党委书记，任教育部副部长

【送5本】《大模型应用开发：RAG入门与实战》RAG入门与实战书来了！

田渊栋：求道之人，不问寒暑

现代LLM基本技术整理

52k star，北大内疯传《大学生CS自救指南》免费分享

国自然委通报！985教授给研究生发放劳务费后再回收！以此套取科研经费

诺奖争议升级：Nature杂志揭露提名黑幕，Jürgen公开反对Hinton获诺贝尔奖！

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

诺奖AI之父Hinton：我确实有些孤独，但并不是完全孤立无援

o1推理扩展的风吹到了RAG，性能飙升58.9%！

9月最新中文版大模型奇书！熬夜看完了，免费pdf分享！

奇书！又一本开源免费的大模型书来了：9月最新中文版，449 页！

上海交通大学震撼发布：首个OpenAI O1项目复现报告，揭秘独家经验！

诺奖现场采访2024物理学得主Hinton：当前AI革命堪比工业革命，且将在智力上全面超越人类

逆天20w赞！吴恩达+Open AI打造《大模型通关指南》

从0手搓4种Agentic模式，主打去框架化!

下载量超5w！机器学习入门圣经《机器学习导论》最新第四版PDF免费分享

今天面试了一个字节女生，当场想给她offer！

诺贝尔物理学奖新篇章：AI之父的非凡成就与物理学的不解之缘！

全是细节｜大模型SFT的100个关键点

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉