如果你有了一个超级助手,只需给它说一句话,它就能帮你完成从网上购物到预订旅行的各种任务,而你甚至不需要碰一下鼠标和键盘。这听起来像科幻电影中的场景,但OpenAI刚刚让它成为了现实。在刚刚结束的一场激动人心的直播中,OpenAI向世界揭示了他们的最新杰作——Operator智能体,这标志着AI发展迈入了一个全新的阶段。
Operator不仅仅是一个普通的AI助手,它是一个真正的智能体,能够独立完成复杂的网络任务。那么,它究竟强大到什么程度?让我们一探究竟。Operator的核心优势在于其惊人的自主性。无论是搜索食谱、网上购物,还是预订机票,它都能像人类一样自如地操作各种网站。想象一下,你只需告诉它:"帮我找一个蛤蜊扁面条的食谱,然后把所有食材加入购物车。"Operator就会自动完成从搜索到购买的全过程,完全不需要你的干预。就在刚刚结束的奥特曼直播中,OpenAI总裁Brockman兴奋地宣布:“2025年将是智能体的年代。”没错,这就是智能体时代的开端!不过,先别急着跳起来,Operator目前只面向Pro用户,也就是每月200美元(大约1458元人民币)的订阅用户。如果你已经是Pro会员,那就恭喜你,赶快去试试!直播结束后,网友们的兴奋劲儿简直爆棚,纷纷调侃这是“疯狂星期四”的新高峰。Operator的另一大亮点是其强大的个性化能力。用户可以为Operator设置各种自定义指令,例如指定首选航空公司或常用的购物网站。这些设置让Operator能够更贴合用户的个人喜好和习惯,提供真正个性化的服务。更令人惊叹的是,Operator还能同时处理多项任务。就像我们在电脑上同时打开多个标签页一样,Operator可以在订购定制杯子的同时,为你预订露营地。这种多任务处理能力大大提高了效率,让用户可以轻松应对复杂的任务组合。不过,虽然Operator的能力已经让人眼前一亮,很多人还是希望它能开源,毕竟开放源代码才更能激发创意和竞争力。有网友甚至幽默地说:“DeepSeek、Meta,快点行动起来吧!”那么,Operator究竟强大到什么程度呢?让我们通过官方Demo来亲眼见识一下。
Operator的惊人表现背后,是OpenAI全新开发的Computer-Using-Agent(CUA)模型。这个模型融合了GPT-4的视觉能力和强化学习推理,使Operator能够像人类一样通过图形界面与网站交互,完成点击、输入等操作。更值得一提的是,CUA模型还具备自我纠错能力。当遇到问题时,Operator能够自主分析、调整策略,如果实在无法解决,它会将控制权交还给用户,确保任务的顺利完成。 在"WebArena"和"WebVoyager"这两个权威的基准测试中,CUA模型都取得了最优(SOTA)成绩,充分证明了其卓越的性能。
Operator的发布不仅仅是一个新产品的问世,更标志着AI技术发展迈入了一个新的阶段。那么,这个阶段对于AI发展究竟意味着什么?OpenAI此前提出了一个从AI到AGI(通用人工智能)的五步进程: 1. Level 1:聊天机器人阶段,AI能与人对话。 2. Level 2:推理系统阶段,AI能解决复杂问题。 3. Level 3:智能体阶段,AI可执行具体任务。 4. Level 4:创新者阶段,AI能进行创新性工作。 5. Level 5:组织阶段,AI能完成整个组织的工作。Operator的发布标志着OpenAI已经从Level 2迈向了Level 3,意味着它的AI技术正式进入了执行任务的阶段。而奥特曼在直播中也预告了,这只是开始,未来几周和几个月内,OpenAI还将推出更多的智能体,带给我们更多惊喜。除了基本操作,Operator还支持个性化设置。你可以为它设定一堆自定义指令,比如选择机票时的首选航空公司,或者指定某个购物网站用于补货。它甚至可以同时执行多个任务,就像你开了多个标签页一样。例如,它可以在Etsy上订购个性化搪瓷杯的同时,在Hipcamp上帮你预定露营地,完全没有问题。那么,为什么说Operator代表了AI发展的一个新阶段呢?关键在于它的"主动性"和"综合性"。在Level 2阶段,AI主要是被动地回答问题或解决特定问题。而在Level 3阶段,AI开始主动执行任务,不再局限于单一领域,而是能够综合运用各种能力来完成复杂的任务链。Operator就是这种新阶段AI的典型代表。它不仅能理解用户的需求,还能主动规划任务步骤、克服障碍、调整策略,直到完成任务。这种能力,使AI从一个简单的工具,变成了一个真正的"智能助手"。