首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
OpenAI推出首个智能体Operator,能网购、会订票甚至会做表情包
科技
2025-01-24 08:19
北京
当地时间 1 月 23 日,
OpenAI 正式推出了其首款 AI 智能体 Operator。
它可以通过自带的浏览器独立浏览网页,并通过键入、单击和滚动来与之交互,能够完成填写表格、订购日常用品,甚至是创建表情包的任务。
(来源:OpenAI)
OpenAI 表示,“它目前处于研究预览阶段,这意味着它存在局限性,并将根据用户反馈不断变化。Operator 是我们的第一批智能体(Agent)之一,它们是能够独立为你工作的 AI,你给它一个任务,它就会执行。”
Operator 将首先向美国的 ChatGPT Pro 订阅用户推出。OpenAI 表示,它计划最终将此功能推广给其 Plus、Team 和 Enterprise 级别的更多用户群体。作为一项研究预览工作,
它目前可通过独立网站访问,OpenAI 表示,希望很快将 Operator 集成到其所有 ChatGPT 应用中。
图 | Operator 操作演示(来源:OpenAI)
山姆·奥特曼(Sam Altman)对这项技术充满期待和信心。这位 OpenAI CEO 在发布会直播中明确表示:“这款产品是我们进军智能体领域的开始。”
与此同时,OpenAI 总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)也在 X 上写道:“2025 年将是智能体元年。”
作为 ChatGPT 的重大升级,Operator 不仅仅是一个简单的信息处理工具,更是直接展现了 AI 工具从被动接收信息向主动行动的关键跨越。
图 | 在演示视频中,Operator 可以网购食物(来源:OpenAI)
Operator 的核心能力是替代人类进行一系列电脑操作。
作为一个智能体,它可以像真人一样流畅地浏览网页,精准地点击、滚动、填写表单,甚至能独立完成订票、购物、订餐等相当复杂的任务。不同于传统的虚拟助手,这款 AI 助手真正具备了“行动”的能力,而非仅仅给出建议或答复。
Operator 背后的技术被 OpenAI 称为“计算机使用智能体(Computer-Using Agent,简称 CUA)”模型。这一全新模型巧妙地结合了 GPT-4o 的视觉识别能力和高级推理技术,可以通过截图“理解”网页,并像人类一样精准操作鼠标和键盘。
CUA 经过训练,可以像人类一样与图形用户界面(GUI,Graphical User Interface)进行交互,包括人们在屏幕上看到的按钮、菜单和文本。这使它能够灵活地执行数字任务,而无需使用特定于操作系统或网络的 API。
图 | Operator 可以根据指令预定餐厅(来源:OpenAI)
根据用户的指令,CUA 通过集成感知、推理和动作的迭代循环进行操作,其工作原理大致分为三个关键阶段。
感知:
将屏幕截图添加到模型的上下文中,提供计算机当前状态的视觉快照,用于详细分析页面内容和结构。
推理:
使用复杂的思路链推理后续步骤,同时考虑当前和过去的屏幕截图和操作。这使其能够评估其观察结果、跟踪中间步骤并动态调整,从而提高任务表现。
操作:
执行操作(单击、滚动或键入),直到确定任务已完成或需要用户输入。虽然 CUA 会自动处理大多数步骤,但对于敏感操作(例如输入登录详细信息或填写验证码),CUA 会寻求用户确认。
这种决策过程使 Operator 能够在不同的网页环境中灵活应对。尤其是在 WebArena 和 WebVoyager 两项浏览器操作测试中,驱动 Operator 的 CUA 模型展现出了令人印象深刻的表现。
图 | Operator 在不同任务中的测试成绩,全面超过了此前 SOTA(来源:OpenAI)
WebArena 利用自托管的开源网站离线模拟网购、在线商店内容管理、社交论坛等网络场景。WebVoyager 则在 Amazon、GitHub 和 Google Maps 等真实网站上测试模型的性能。不过 WebAreana 的任务相对更加复杂。
CUA 在 WebArena 上的成功率为 58.1%,而在 WebVoyager 测试中,其在实际网站导航中取得了惊人的 87% 成功率,可以独立完成从在线购物到旅行预订的各种任务,展现出了令人兴奋的潜力。
除了基础浏览能力,Operator 还具备个性化定制功能。用户可以为特定网页或全站添加自定义指令,并在主页保存这些指令,实现跨聊天窗口的多任务并行处理。这种灵活性极大地提升了其实用价值。
此外,在 OSWorld 基准测试中(用于评估模型控制 Ubuntu、Windows 和 macOS 等完整操作系统的能力),CUA 的成功率为 38.1%。不过,人类在这项测试中的平均成绩是 72.4%,说明 AI 还有很大的进步空间。
OpenAI 还表示,其观察到随着测试时间的增加(这意味着允许进行更多操作步骤),CUA 的表现会提高。
图 | 随着最大允许步骤数的增加,CUA 的表现也越来越好(来源:OpenAI)
考虑到 AI 智能体可能带来的潜在风险,OpenAI 在 Operator 中设置了多重严格的安全机制。用户可以随时接管控制权,填写信用卡信息和确认付款等敏感操作都需要人工明确确认。
目前,Operator 还被限制不能处理银行交易、发送电子邮件(尽管 CUA 可以做到这一点)、删除日历事项等高风险任务。
除了用户控制机制,Operator 还配备了滥用防范系统。它能够识别并拒绝有害请求,并在检测到可疑活动时立即暂停执行。它还配有黑名单机制,许多赌博网站、成人娱乐网站以及毒品或枪支零售网站都无法访问。
图 | OpenAI 介绍的一些安全措施(来源:OpenAI)
OpenAI 在其网站上解释道,Operator 使用的监控系统旨在限制模型尝试恶意提示、隐藏指令和网络钓鱼。如果检测到可疑活动,监控系统会暂停 Operator 的工作,而自动和人工审查机制会不断更新保障措施。
不过即使是浏览网页和操作电脑,Operator 目前也存在一定局限性。OpenAI 表示,“目前还不能指望 CUA 在所有场景下都能可靠运行。”
例如,它还无法可靠地处理许多复杂或专业的任务,例如创建详细的幻灯片、管理复杂的日历系统,或与高度定制或非标准的 Web 界面进行交互。
与此同时,许多网站(如 Reddit)已经阻止 AI 智能体浏览,因此 Operator 无法访问它们。在这种研究预览模式下,出于性能或法律原因,OpenAI 还阻止了 Operator 访问某些资源密集型网站(如 Figma)或直接竞争对手拥有的网站(如 YouTube)。
最后,CEO 奥特曼在直播中表示,Operator 是 OpenAI 的“第一批智能体”,未来几周和几个月还会推出更多的智能体。
越来越多的 AI 智能体出现,标志着 AI 正从被动的信息处理工具,转变为主动的数字生态系统参与者。无论是简化日常事务,还是创新商业工作流程,AI 正在变得越来越实用。人类与 AI 的协作,正在从想象逐渐变为现实。
参考资料:
https://openai.com/index/introducing-operator/
https://openai.com/index/computer-using-agent/
https://techcrunch.com/2025/01/23/openai-launches-operator-an-ai-agent-that-performs-tasks-autonomously/
https://venturebeat.com/ai/meet-openais-operator-an-ai-agent-that-uses-the-web-to-book-you-dinner-reservations-order-tickets-compile-grocery-lists-and-more/
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
最新文章
OpenAI推出首个智能体Operator,能网购、会订票甚至会做表情包
热电性能超过1962以来文献记录最高值,科学家提升拓扑材料低温热电性能,突破高水平热电性能对超导磁体的依赖
融资超百亿美元,跃居美国第四大独角兽,这家AI数据公司什么来头?
重塑Web开发的AI编程工具Bolt.new完成8350万美元融资,估值达7亿美元
2024 ACM Fellow公布,10位华人学者入选
Anthropic创始人眼中的AI智能体进化:工具、上下文、代码与安全
为开发肝病肾病疗法带来依据:科学家开发代谢路径跟踪方法,实现药物代谢路径的实时监测
为什么使用AI诊断癌症如此困难?
哈工深团队提出多模态智能体Optimus-1,在MineCraft长序列任务表现接近人类水平
OpenAI联手软银、甲骨文启动“星际之门”计划!拟投资5000亿美元打造全球最大AI算力中心
北大团队研发多模式忆阻器,支持多种光学神经网络,助力实现大规模可重构视觉计算硬件系统
2月7日截止|2024年度“35岁以下科技创新35人”中国报名倒计时
DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平,成本降至1/30
特朗普第二任期的科技政策:退出巴黎协定,撤销电动车优惠政策,欲将美国宇航员送往火星
“永久化学品”污染问题终于有解:科学家开发有机光催化体系,助力理解C–F键裂解机制
宾大团队联合UCLA提出新型推理框架,助力大模型解决专业领域推理难题
101种语言即时翻译,Meta新模型可做你的“AI翻译官”
让AI预测人脑未来10分钟状态,悉尼大学华人团队提出新型Transformer架构,单时间点预测均方误差为0.0013
为什么AI编程能快速落地?
AI也会“喵喵叫”:MIT团队让机器学会模仿声音
OpenAI联合抗衰初创研发GPT-4b micro模型,将干细胞生产效率提高50倍,助力实现更有效的器官培育和细胞替代疗法
用AI模拟5亿年生命进化的ESM3模型登上Science,背后公司一年融资1.42亿美元
美AI军工初创再获2亿美元投资,a16z、空客入局,估值已达50亿
为什么说2025是气候科技的关键一年
美最高法裁决维持TikTok禁令,唯一“生还”可能性握在特朗普手里
自动化学实验室成真?微软华人学者领衔研发材料生成模型,已发现277个稳定独特新颖材料结构
英伟达加速布局生成式物理AI:首投中国台湾创企MetAI,用数字孪生重塑工业制造
AI加持的美国军工初创拟打造军用无人机超级工厂,此前与OpenAI达成战略合作
估值102亿美元,全球首家复活灭绝物种公司再获2亿美元融资
AI是否会终结传统搜索引擎?
“星舰”第七次试飞:成功捕捉助推器,但飞船解体
首次实现活体细胞内纳米结构无标记化学成像,科学家用AI开发受激拉曼纳米成像技术,分辨率可达86纳米
国产算力加持的大模型新突破,科大讯飞发布端到端同传大模型媲美人类口译员
看不见的碳捕手:浮游生物的生态贡献
印度史上首家成功发射卫星的私营公司:95后小伙创立Pixxel,已发射三颗高光谱成像卫星,可覆盖40公里带状区域
西安交大团队设计新型光催化分子,为太阳能转化提供高效产氢新策略
《麻省理工科技评论》预测2025年AI五大趋势
谷歌提出创新神经记忆架构,突破Transformer长上下文限制
突破金刚石膜大规模生产瓶颈:港大团队用“一步法”剥离晶圆级金刚石膜,生产成本比传统工艺降低1000倍
癫痫发作频次减少80%,国外公司开发干细胞疗法,15名癫痫受试者获初步疗效
电动汽车迎战2025:中美欧三强的新博弈
美国出台史上最严AI芯片禁令,三道红线划分全球AI版图,模型权重首次入管控
三代物理人梦想成真:兰大校友实现量子疤痕态直接成像,有望用于打造电子光学器件
蓝色起源“新格伦”号巨型火箭首飞再推迟,贝索斯太空宏愿关键一步受阻
台积电美国工厂4nm芯片投产,约一半员工来自中国台湾
高分辨率“透视眼”:MIT团队新方法无需导线即可观察细胞活动
这种植物能减少“牛打嗝甲烷排放”?多国布局研发牛打嗝抑制剂,2030年或让一亿头牛脱碳
马斯克CES“未来宣言”:3年内AI完成所有认知任务、50万机器人投产、首艘载人飞船奔赴火星
28岁小伙“复活”美国安然,还卖起了家用核反应堆?
智能的代价:AI背后的能源消耗与环境危机
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉