AI大神Andrej Karpathy:OpenAI Operator预示着AI智能体的未来,但仍需突破!
各位小伙伴,最近 OpenAI 发布了 Operator 的研究预览版,这是一个可以使用自己的浏览器为你执行任务的 AI 代理,引起了广泛关注。今天,我们来听听 AI 大神 Andrej Karpathy 对此的看法。他不仅深度参与了 OpenAI 的早期项目,还对 AI 的发展有着深刻的见解。
文章要点总结:
• Operator 的类比: Karpathy 将 OpenAI 的 Operator 比作数字世界的人形机器人,两者都是通用的系统,能够通过接口(键盘鼠标或人体)执行各种任务。 • 混合自主的未来: 这类 AI 的出现将导致一个混合自主的世界,人类将扮演高级监督者的角色,而 AI 则负责低级自动化。 • 数字世界的优势: 由于数字世界的操作成本远低于物理世界,这种变革在数字世界发生的速度会更快。 • 技术挑战: 虽然前景广阔,但目前技术仍存在挑战,特别是多模态信息处理和长期任务规划。 • 长期愿景: Karpathy 认为未来是智能体的时代,我们可以通过智能体完成各种复杂的任务,甚至运营整个公司。 • 长期发展: 他预测 2025-2035 年将是智能体的十年,虽然目前仍有许多工作要做,但未来可期。
以下为 Karpathy 评论的中文翻译:
像 OpenAI 的 Operator 这样的项目之于数字世界,正如人形机器人之于物理世界。一个通用的设置(监控键盘和鼠标,或人体),原则上可以通过最初为人类设计的 I/O 接口,逐步执行任意通用的任务。在这两种情况下,都会导致一个逐渐混合的自主世界,人类成为低级自动化的更高级别监督者。有点像司机监控自动驾驶仪。这在数字世界中发生的速度会比物理世界快,因为翻转比特的成本比移动原子的成本低大约 1000 倍。尽管物理世界的市场规模和机会感觉要大得多。
我们实际上在 OpenAI 的早期就研究过这个想法(参见 Universe 和 World of Bits 项目),但它的顺序不正确 - LLM 必须先出现。即使现在我也不敢 100% 确定它是否准备好了。多模态(图像、视频、音频)在过去一两年才刚刚与 LLM 集成,通常是作为适配器附加的。更糟糕的是,我们还没有真正涉足非常非常长的任务周期。例如,视频包含了大量信息,我不确定我们是否可以期望将所有信息都塞进上下文窗口(目前的范式),然后期望它也能工作。我想象这里可能需要一两个突破,举个例子。
我时间线上的人们都在说 2025 年是智能体之年。我个人认为 2025-2035 年是智能体的十年。我觉得要让它真正发挥作用,还需要在各个方面做大量工作。但它应该能行。今天,Operator 可以帮你从 DoorDash 上找午餐,或查看酒店等,有时可以,也许可以。明天,你将为自己选择的长期任务启动 Operators 组织(例如运营一家公司)。你可以像一位 CEO 一样同时监控 10 个 Operators,有时可能会深入到具体工作中来解决一些问题。事情将会变得非常有趣。
文章解读:
Karpathy 的评论清晰地指出了 OpenAI Operator 的重要意义,以及它在未来可能扮演的角色。 他认为 Operator 不仅仅是一个工具,而是一个变革的开端,标志着 AI 从简单的任务处理向更复杂的自主行动转变。 这也是一种 AI 智能体的雏形。
然而,他也强调了目前存在的技术挑战,比如如何处理多模态信息,以及如何让 AI 理解和执行长期的复杂任务。 这些问题都需要进一步的研究和突破。
总结:
Karpathy 的观点为我们理解 OpenAI Operator 提供了一个重要的视角。它不仅揭示了这项技术的前景,也指出了未来发展中需要克服的挑战。 虽然我们目前仍处于 AI 智能体发展的早期阶段,但它未来的潜力是巨大的,值得我们期待。
如果您想要让大模型写出优质的短篇小说,以及对其他内容感兴趣,也欢迎点击下面的链接,效果不错哦,很多朋友都说好。
效果如下