清华、面壁提出创新AI Agent交互：能主动思考、预测需求

文摘 2024-12-02 05:12 河北

当前，哪怕是 ChatGPT 等最先进的 AI Agent 都是传统的被动式 Agent（下图 1 左侧所示），即需要用户通过明确的指令显式告诉 Agent 应该做什么，Agent 才能继续执行接下来的任务。

近期清华大学联合面壁智能团队提出了开创性的新一代主动 Agent 交互范式（ ProActive Agent），为 AI 交互带来了突破性的解决方案（下图 1 右侧所示）。这一新范式下的 Agent 不再是简单的指令执行者，而是升级成为了具有"眼力见"的智能助手。

它具备"眼中有活、主动帮助"的主观能动性，能够主动观察环境、预判用户需求，像"肚子里的蛔虫"一样，在未被明确指示的情况下主动帮用户排忧解难。主动 Agent 实现了从"被命令"到"会思考"的质的飞跃。

图1：两种人类与智能体交互形式的比对。左侧的被动式 Agent 只能被动接受用户指令并生成回复，而右侧的主动式 Agent 可以通过观测环境主动推断与提出任务。

➤ 论文链接：

🔗 https://arxiv.org/abs/2410.12361

➤ GitHub 地址：

🔗 https://github.com/thunlp/ProactiveAgent

主动 Agent 交互范式在日常生活中有丰富的应用潜力。不难预想，它可以根据用户的习惯和偏好，主动提供行程安排、工作助手、生活管家、健康管理等服务。

主动Agent交互范式

应用场景demo演示

场景1:

在一段情侣聊天的场景中，男生邀请女生一起要在周六去环球影城并于早上八点来接女生，当 Agent 获取用户授权之后随时保持在线的“候命状态”，当 Agent 通过上下文聊天内容实时识别到女生的需求，在没有用户明确下指令的情况下，Agent 主动帮女生定了一个周六早上七点的闹钟用来提醒起床。

场景2:

当用户在电脑上接收到一份重要文件（学习课件、发票等）时，Agent 主动帮用户把文件存到了本地，并自动识别出 PDF 文件第一页显示的标题然后帮用户把文件名进行了重命名。

究除了提出以上开创性的主动 Agent 之外，还通过采集不同场景下的人类活动数据构建了一个环境模拟器，进而构建了数据集 ProactiveBench，通过训练模型获得了与人类高度一致的奖励模型，并比对了不同模型在数据集下的性能。

主动Agent技术原理

下图展示了主动 Agent 技术原理的整体流程。为了让智能体能够主动提出任务，该研究设计了三个组件以模拟不同场景下的环境信息，用户行为和对智能体提出任务的反馈。

图2：数据生成过程总览。该过程包含了初始环境与任务设置，事件生成，主动预测，用户判断和行动执行。

1、环境模拟器模拟了一个特定环境，并为智能体的交互提供了一个沙盒条件。模拟器通过使用基于 Activity Watcher 软件采集到的真实人类数据以提升生成事件的质量。环境模拟器的主要功能为事件生成与状态维护：通过使用 GPT-4o 从人类注释员处收集的种子事件以生成一个需要交互的具体环境，同时生成所有相关实体以让智能体执行任务。

对于每个场景，环境模拟器接收用户活动并生成详细的，逻辑通顺合理的事件，环境模拟器将会持续生成事件，更新实体状态，产生特定反馈，直到当前环境下没有更多事件以供生成。

2、主动智能体将会通过环境模拟器提供的信息预测用户意图，生成预测任务。每当智能体接受一个新事件后，它将首先更新自己的记忆，结合用户之前的反馈和历史交互信息，主动智能体将能够结合用户性格提出可能的任务。如果主动智能体没有检测到需要，其将保持静默，反之将会提出一个任务。一旦此任务被用户接受，那么主动智能体将在环境模拟器中执行该任务，并进而产生后续的系列事件。

3、用户智能体将模拟用户行为并对主动智能体的任务做出反馈。用户智能体为经过提示的 GPT-4o，在获取预测之后，用户智能体将会决定是否接受任务。该研究通过从人类标注员处收集判断，并训练一个奖励模型以模拟这一过程。

人类标注员在研究开发的标注平台上进行标注，对特定时间下，9 个不同的大语言模型生成的多样化预测进行判断，并通过多数投票的方式决定某个回合用户是否具有需求，以及用户倾向于接受什么类型的任务。值得一提的是，人类标注员在测试集上达到了 91.67%的一致性，充分说明了测试集的可靠性。

主动 Agent 实验研究

该研究提出了一套度量方式衡量奖励模型和人工标注员的一致性。

需求遗落(MN)：人工标注认为需要帮助而奖励模型认为无需帮助。

静默应答(NR)：人工标注和奖励模型都认为无需帮助。

正确检测(CD)：人工标注和奖励模型都认为需要帮助。

错误检测(FD)：人工标注认为无需帮助而奖励模型认为需要帮助。

在这四个度量方式上进行召回率、精确度、准确度和 F1 分数的计算，从结果上看，所有的现有模型都在正确检测上表现良好，但对于其他指标则性能较差。现有模型倾向于接受智能体的任务，尽管可能毫无助益。相对的，该研究训练的模型性能最优，因此被选为 ProactiveBench 的奖励模型。

图表3：不同模型作为奖励模型的评测结果。研究展示了模型与人工标注员多数投票结果之间的一致性。在 LLaMA-3.1-instruct-8B 微调的模型取得了最好结果。

通过奖励模型，可以进一步衡量主动智能体的性能表现。该研究在不同的模型上进行了评估，并将模型预测的结果交由奖励模型进行评价。从结果上看，闭源模型会倾向于主动提出任务而不能在用户无需帮助时保持静默，模型提供的任务往往过于抽象或无用，以至于产生较高的误报率。

对于开源模型，经过数据集训练的模型明显更优，这证实了研究数据合成流水线的有效性。同时，经过训练的模型也在误报率上有了明显的下降，尽管提供不必要的帮助的情况仍然存在。

图表4：不同模型在 ProactiveBench 数据上的评测结果。GPT-4o 在闭源模型中脱颖而出，对于开源模型，基于 Qwen2-7B 微调的结果取得最好成果。

研究同样进行了消融学习以研究提出任务数量和用户反馈对于智能体性能的影响。通过让模型提出多个可能的任务并一一进行判断，所有的模型在指标上都有明显的上升。通过给予模型来自奖励模型的反馈，所有的模型误报率都有所下降，准确度有所上升，但在召回率的表现上有明显下降。通过结合奖励模型，主动智能体可以更好的检测用户需求，降低误报率。

图表5：基准线，多任务预测，获取反馈之间的比较。结果表明所有的模型都有所提升。模型的误报率由于接受预测的可能性更高或被奖励模型改进而显著下降。

结语

该研究提出了创新的人类-智能体交互方法即主动 Agent（ProActive Agent）范式，有望将 AI 从被动的工具转变为具有洞察力和主动帮助的智能协作，从而开启人机交互新范式。

这一技术革新不仅将改变我们与 AI 交互的方式，更有望为大众群体创造更加包容和便利的智能化生活环境。随着技术的不断进步，我们可以期待看到更自然的人机协作模式，更智能的场景适应能力，以及更深度的个性化服务。

END

AIGC开放社区

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

最新文章

所有用户无限用Sora，OpenAI放圣诞福利！

极限压缩380倍！比OpenAI的Whisper更高效，开源模型超2000颗星

OpenAI 12天直播大盘点！o3、Sora，一次看完所有新技术

AI工具 | AI商品图工具合集

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

函子科技CEO蒋耀锴，将出席“ISIG-AIGC多模态技术与应用峰会”

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

AI——有自由意志会怎样？

AI大模型/AIGC多模态/RPA超级自动化/低代码四大科技峰会来袭！

集思科技销售VP陈曙光，将出席“ISIG-AIGC多模态技术与应用峰会”

讯飞机器人超脑平台总经理刘可为，将出席“ISIG-AI大模型技术与应用发展峰会”

谷歌版o1模型发布：霸榜排名第一，深度展示思维链

ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能体了

苹果正与腾讯、字节跳动洽谈，在iPhone集成类ChatGPT

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

聚力维度创始人&CEO赵天奇，将出席“ISIG-AIGC多模态技术与应用峰会”

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软全球黑带技术专家武帅，将出席“ISIG-AI大模型技术与应用发展峰会”

OpenAI整大活！ChatGPT新增电话功能，全民AGI要来了

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

重磅来袭！HealthAI 2024健康智能挑战赛启动报名

英伟达发布微型大模型计算机，每秒计算67万亿次

达观数据联合创始人张健，将出席“ISIG-AI大模型技术与应用发展峰会”

壹沓科技大模型产品总监王琰元，将出席“ISIG-AI大模型技术与应用发展峰会”

重磅！OpenAI开放满血o1模型API，成本暴降60%

开启智能之旅！RPA超级自动化与流程挖掘峰会火热报名中~

Liquid AI获2.5亿美元融资，创新液态大模型

ChatGPT搜索大更新！实时搜索、高级语音，AI搜索时代来了

AI工具 | AI内容检测合集

AI加速，码力全开！低代码/零代码技术与应用发展峰会火热报名中~

超过Sora！谷歌发布Veo 2，支持4K、逼真到难以分辨

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

微软发布Phi-4，最强小模型！参数极小、超GPT-4o

IBM推出化学大模型：可精准预测分子性质和行为

突破性功能！OpenAI发布ChatGPT Projects，万能工具箱上线！

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软 Azure AI 荣耀登榜，2024最受开发者欢迎的 AI 应用开发平台！

极客说｜深度对比：SFT、ReFT、RHLF、RLAIF、DPO、PPO

AI现身2024国际象棋世界冠军赛！世界棋王丁立人守擂，看AI如何让国际象棋更有趣

重磅！ChatGPT解锁高级视频对话、屏幕共享，实时交互时代

ISIG年度盛会来袭！RPA/低代码/AI大模型/AIGC多模态四大科技峰会共掀数字化创新浪潮

AI Agent成主打！谷歌发布超强多模态大模型—Gemini 2.0

极客说｜多智能体时代

王者降临！苹果全家桶接入ChatGPT，重塑iPhone、iPad 、Siri

多模态解锁无限可能！AIGC多模态技术与应用峰会报名开启~

人人可用，AI Copilot 场景学习资料大放送！

史上最贵！首个AI Agent程序员商业化，比ChatGPT Pro贵2倍

突发！OpenAI发布Canvas，ChatGPT新增史诗级功能

AI应用 | 可口可乐AI广告惹争议

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉