文|杨泽原 丁奇 潘儒琛 马庆刘
以Operator为代表的智能体(Agent)具备面向复杂任务的自主规划、感知、决策能力,验证模型落地各类终端的潜力,实现从知识辅助到操作代替的价值提升。产品“感知-决策-行动”模式下,各节点技术门槛有所提高且需要针对场景进行专门训练,我们预计场景内Agent产品价值和差异性将进一步提升,带动应用加速落地形成全产业链投资机会。建议关注工具软件和其他重点行业软件、通用管理软件、AI基础设施三大主线。
▍产品概况:Operator自主操作终端,各行业Agent加速落地可期。
2025年1月23日,OpenAI正式发布首款智能体Operator,具备在PC浏览器场景内的自主任务拆解和终端操作能力,发布现场展示了购物、配送、餐饮、旅行等多个日常领域应用,并宣布面向ChatGPT Pro用户(订阅费200美元/月)开放。能力上,Operator核心CUA模型的PC和浏览器的操作能力超越以往模型,例如根据OpenAI官网,在浏览器测试集WebArena上正确率达到58%,但较人类78.2%的水平仍有一定差距,我们预计后续更多用户数据将被用于训练,带动场景内准确率以及场景覆盖数量持续提升。同时,OpenAI正与DoorDash、Instacart、OpenTable、Uber等公司合作,探索各领域Agent落地机遇。参考OpenAI CEO Sam Altman在发布会上的表述,Operator是首批智能体之一,公司将在未来几周和几个月内推出更多智能体。
▍技术解析:“感知”+“决策”构成技术核心,o1与GPT-4o实现系统协作。
参考OpenAI官网,Operator主要由CUA新模型负责推理,形成“感知-决策-行动”的循环运作模式。感知上,Operator将屏幕截图、用户Prompt、历史操作步骤结合形成CUA模型的输入上下文,结合GPT-4o多模态能力进行实时视觉理解。决策上,CUA模型利用上下文评估任务状态、环境状态、任务目标,综合推理得出下一步操作直至任务完成。同时,CUA模型可以通过强化学习带来纠偏能力,在遇到困难或错误时可对历史操作和环境变化进行分析,尝试找到解决问题的方法。我们认为,结合强化学习能力的CUA模型与o1等逻辑模型同源,结合GPT-4o的多模态能力,Operator一定程度上实现了o1与GPT-4o的动态结合,验证语言模型+逻辑模型的系统能力。
▍行业价值:从知识辅助到操作代替,场景内Agent产品价值提升。
从系统模式来看,智能体(Agent)具备面向复杂任务的自主规划、感知、决策能力,同时具备实际的任务执行能力,实现用户无需操作直接完成任务,实现从知识辅助到操作代替的价值提升。从实际应用来看,类Operator的“感知-决策-行动”模式下,各节点技术门槛有所提高且需要针对场景进行专门训练,我们预计场景内Agent产品价值和差异性将进一步提升,带动各场景AI应用加速落地。
▍风险因素:
AI核心技术发展不及预期;AI被不当使用造成严重社会影响;AI应用拓展不及预期;信息安全风险;行业竞争加剧。
▍投资策略。
以Operator为代表的智能体(Agent)具备面向复杂任务的自主规划、感知、决策能力,验证模型落地各类终端的潜力,实现从知识辅助到操作代替的价值提升。产品“感知-决策-行动”模式下,各节点技术门槛有所提高且需要针对场景进行专门训练,我们预计场景内Agent产品价值和差异性将进一步提升。我们看好后续更高价值的Agent加速落地带来的全产业链投资机会,梳理以下投资主线:1)主线一:工具软件和其他重点行业软件;2)主线二:通用管理软件;3)主线三:AI基础设施。