首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI发布的Operator是什么？

文摘 2025-01-25 11:02 安徽

Operator 是一个可以使用网页浏览器来完成任务的系统。

Operator 可以查看网页并通过输入、点击和滚动与网页进行互动。

目前作为研究预览版推出，仅限美国地区的 Pro 用户使用。稍后会向 Plus 用户开放。

Operator 可以执行各种重复性的浏览器任务，例如填写表单、订购杂货，甚至创建 memes。

“memes” （表情包或迷因）是指在网络文化中传播的幽默或讽刺性内容，通常通过图片、视频、文字或图像的组合形式表达。它们在社交媒体平台上迅速传播，通常具有一定的模仿性质，内容会被反复修改或重用。memes 通过幽默或讽刺的方式反映文化、社会事件或流行趋势，往往有一定的自我表达或情境背景。

Operator 可以帮忙去餐厅订一张 2 人餐桌：

Operator 实例化了一个远程浏览器。Agent 通过点击和与网页互动来完成任务。

如果 Operator 需要一个位置，它可以使用自定义指令来引导自己。

对于关键操作，Operator 会向用户请求确认。

你可以用它来购物。只需提供一张购物清单的图片。

Operator 基于一种名为 CUA（Computer-using Agent）的模型。

CUA 结合了 GPT-4 的视觉能力和通过强化学习（RL）进行的高级推理，经过训练可以与图形用户界面（GUI）互动——即人们在屏幕上看到的按钮、菜单和文本框。

CUA 与截图互动，而不是通过 API！

它通过鼠标和键盘允许的操作与浏览器进行互动，这去除了对自定义 API 集成的需求。

通过内心独白，根据截图决定接下来采取的操作。

可以看一下早前的文章《还没弄懂AGI，又来了一个ACI？！你再不跟上就真的被淘汰了。》

如果你想添加额外的指令并随后返回控制权，你也可以与 Operator 互动。

当你接管时，Operator 无法看到——这种互动是私密的。

例如，购买票务或查找有关活动的信息。

你还可以并行执行任务。

如果你没有指定具体的网站，Operator 也可以进行浏览，而不是直接访问应用程序或服务。

关于 Operator 的安全性，有一些细节：

它可以拒绝有害任务，避免访问被封锁的网站，并防止垃圾信息。
确认机制是 Operator 内置的一个关键缓解策略。
此外，还有一个有趣的提示注入监控作为额外的安全层。

这是一个很好的例子，说明何时 Operator 需要用户接管。在这种情况下，它请求提供电子邮件地址以继续登录。因此，互动的这一部分是保密的。

这是 CUA 在 OSWorld 和 WebArena 基准测试中的表现。CUA 的表现优于之前的最先进技术，但与人类表现相比，仍然有很长的路要走。

OpenAI 的团队提到，模型将在接下来的几周内发布。

Sam 在演示结束时表示，这是他们迈向 Agent Level 3 下一步的开始。

PyTorch研习社

打破知识壁垒，做一名知识的传播者

最新文章

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

2025年值得入坑AI Agent的五大框架

GPT之父从OpenAI离职！OpenAI“众叛亲离”对AI的发展或许是一件好事

ModernBERT在LLM时代重塑BERT的速度与效能

12天12大突破！OpenAI的创新狂潮，彻底改变未来科技

用 PydanticAI 构建智能体应用：评估驱动开发的新时代

HuggingChat：开源、自由、高效的生成式对话平台

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉