OpenAI 最新产品全曝光！奥特曼驳斥 AI 发展撞墙，Ilya 认错，秘密寻找下一个重大突破

科技 2024-11-14 17:13 广东

今年 AI 圈的瓜真是一浪接一浪。

最近，关于 Scaling Laws 「撞墙」的消息在 AI 圈炸开了锅。图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 纷纷展开唇枪舌战。

争论的核心在于，随着模型规模的不断扩大，其性能提升是否会遇到天花板。

正当舆论愈演愈烈之际，OpenAI CEO Sam Altman 刚刚在 X 平台作出回应：

there is no wall 没有墙

而在这场辩论的背景下，彭博社则披露了一条引人注目的消息。

OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent（智能体），这个 Agent 能够使用计算机代替用户执行任务，如编写代码或预订旅行。

在此之前，Anthropic、微软、Google 也都被曝出正在布局类似的方向。

对于整个 AI 行业来说，AI 技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时，创新往往会在其他维度突破。

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

Scaling Laws 撞墙？下一步该怎么走

Scaling Laws 遭遇瓶颈的消息，最先源自外媒 The Information 上周末的一篇报道。

洋洋洒洒的数千字报道透露了两个关键信息。

好消息是，尽管 OpenAI 完成了下一代模型 Orion 训练过程的 20%，但 Altman 表示，Orion 在智能和执行任务、回答问题的能力已经与 GPT-4 不相上下。

坏消息是，据上手体验的 OpenAI 员工评估，与 GPT-3 和 GPT-4 之间的巨大进步相比，Orion 提升幅度较小，比如在编程等任务上表现不佳，且运行成本较高。

一句话概括就是，Scaling Laws 撞墙了。

要理解 Scaling Laws 效果不及预期所带来的影响，我们有必要给不太清楚的朋友简单介绍一下 Scaling Laws 基本概念。

2020 年，OpenAI 在一篇论文中最早提出 Scaling Laws。

这一理论指出，大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。

听着有些拗口，说人话就是，大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。

OpenAI 的这项研究奠定了后续大模型发展的基础，不仅促成了 GPT 系列模型的成功，也为训练 ChatGPT 提供了优化模型设计与训练的关键指导原则。

只是，当我们现在还在畅想着 GPT-100 时，The Information 的爆料表明，仅仅增加模型规模已经不能保证性能的线性提升，且伴随着高昂成本和显著的边际效益递减。

而遭遇困境的并非仅有 OpenAI 一家。

彭博社援引知情人士的消息称，Google 旗下的 Gemini 2.0 同样未能达到预期目标，与此同时，Anthropic 旗下的 Claude 3.5 Opus 的发布时间也一再推迟。

在争分夺秒的 AI 行业，没有产品的新消息往往意味着最大的坏消息。

需要明确的是，这里所说的 Scaling Laws 遇到瓶颈并非意味着大模型发展就此终结，更深层的问题在于高昂成本导致边际效益的严重递减。

Anthropic CEO Dario Amodei 曾透露，随着模型变得越来越大，训练成本呈现爆炸式增长，其目前正在开发的 AI 模型的训练成本就高达 10 亿美元。

Amodei 还指出，未来三年内，AI 的训练成本还将飙升到 100 亿美元甚至 1000 亿美元。

以 GPT 系列为例，仅 GPT-3 的单次训练成本就高达约 140 万美元，单是 GPT-3 的训练就消耗了 1287 兆瓦时的电力。

去年，加州大学河滨分校的研究显示，ChatGPT 每与用户交流 25-50 个问题，就得消耗 500 毫升的水。

预计到 2027 年，全球 AI 的年度清洁淡水需求量可能达到 4.2-66 亿立方米，相当于 4-6 个丹麦或半个英国的年度用水总量。

从 GPT-2 到 GPT-3，再到 GPT-4，AI 所带来的体验提升是跨越式的。正是基于这种显著的进步，各大公司才会不惜重金投入 AI 领域。

但当这条道路逐渐显露尽头，单纯追求模型规模的扩张已无法保证性能的显著提升，高昂的成本与递减的边际效益便成了不得不面对的现实。

现在，比起一味追求规模，在正确的方向上实现 Scaling 显得更加重要。

再见，GPT；你好，推理「O」

墙倒众人推，连理论也是如此。

当 Scaling Laws 疑似触及瓶颈的消息在 AI 圈内引发轩然大波时，质疑的声浪也随之翻涌而来。

图灵奖得主、Meta AI 首席科学家 Yann Lecun，昨天兴奋地在 X 平台转载了路透社采访 Ilya Sutskever 的采访，并附文称：

「我不想显得事后诸葛亮，但我的确提醒过你。

引用：「AI 实验室 Safe Superintelligence（SSI）和 OpenAI 的联合创始人伊利亚·苏茨克韦尔（Ilya Sutskever）最近向路透社表示，通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型，使其理解语言模式和结构——所取得的成果已经停滞不前。」

回顾这位 AI 巨头过去两年对现行大模型路线的评判，可谓是字字珠玑，句句见血。

例如，今天的 AI 比猫还笨，智力差太远；LLM 缺乏对物理世界的直接经验，只是操纵着文字和图像，却没有真正理解世界，强行走下去只会死路一条等等。

时间拨回两个月前，Yann Lecun 更是毫不客气地给当下主流路线判了死刑：

大型语言模型（LLMs）无法回答其训练数据中未包含的问题，

它们无法解决未经训练的难题，

它们无法在缺乏大量人类帮助的情况下学习新技能或知识，

它们无法创造新的事物。目前，大型语言模型只是人工智能技术的一部分。单纯地扩大这些模型的规模，并不能使它们具备上述能力。

在一众 AI 末日论中，他还坚定地认为声称 AI 将威胁人类生存的言论纯属无稽之谈。

同在 Meta FAIR 任职的田渊栋博士则更早预见了当前的困境。

5 月份在接受媒体采访时，这位华人科学家曾悲观地表示，Scaling Laws 也许是对的，但不会是全部。在他看来，Scaling Laws 的本质是以指数级的数据增长，来换取「几个点的收益」。

最终人类世界可能会有很多长尾需求，需要人类的快速反应能力去解决，这些场景的数据本身也很少，LLM 拿不到。

Scaling law 发展到最后，可能每个人都站在一个「数据孤岛」上，孤岛里的数据完全属于每个人自己，而且每时每刻都不停产生。

专家学会和 AI 融合，把自己变得非常强，AI 也代替不了他。

不过，形势或许还没有到如此悲观的境地。

客观而言，Ilya 在接受路透社的采访时，虽然承认了 Scaling Laws 带来的进展已趋于停滞，但并未宣告其终结。

「2010 年代是追求规模化的时代，而现在我们再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。

在当下，选择正确的事物进行规模化比以往任何时候都更为关键。」

并且，Ilya 还表示 SSI 正在秘密探索一种新的方法来扩展预训练过程。

Dario Amodei 最近在一档播客中也谈及此事。

他预测，在人类水平以下，模型并不存在绝对的天花板。既然模型尚未达到人类水平，就还不能断言 Scaling Laws 已经失效，只是确实出现了增长放缓的现象。

自古，山不转水转，水不转人转。

上个月，OpenAI 的研究员 Noam Brown 在 TED AI 大会上表示：

事实证明，在一局扑克中，让一个机器人思考 20 秒钟，得到的性能提升与将模型扩展 100000 倍并训练它 100000 倍长的时间一样。

而对于 Yann lecun 昨天的事后诸葛亮言论，他这样回应：

现在，我们处于一个这样的世界，正如我之前所说，进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。

曾有许多人合理地担心，随着预训练所需的成本和数据量变得如此庞大，我们会看到 AI 进展的回报递减。

但我认为，从 o1 中得到的一个真正重要的启示是，这道墙并不存在，我们实际上可以进一步推动这个进程。

因为现在，我们可以扩展推理计算，而且推理计算还有巨大的扩展空间。

以 Noam Brown 为代表的研究者坚信推理/测试时计算（test-time compute），极有可能成为提升模型性能的另一个灵丹妙药。

说到这里，就不得不提到我们熟悉的 OpenAI o1 模型。

与人类的推理方式颇为相似，o1 模型能够通过多步推理的方式「思考」问题，它强调在推理阶段赋予模型更充裕的「思考时间」。

其核心秘密是，在像 GPT-4 这样的基础模型上进行的额外训练。

例如，模型可以通过实时生成和评估多个可能的答案，而不是立即选择单一答案，最终选择最佳的前进路径。

这样就能够将更多的计算资源集中在复杂任务上，比如数学问题、编程难题，或者那些需要人类般推理和决策的复杂操作。

Google 最近也在效仿这条路线。

The Information 报道称，最近几周，DeepMind 在其 Gemini 部门内组建了一个团队，由 Jack Rae 和 Noam Shazeer 领导，旨在开发类似的能力。

与此同时，不甘落后的 Google 正在尝试新的技术路径，包括调整「超参数」，即决定模型如何处理信息的变量。

比如它在训练数据中的不同概念或模式之间建立联系的速度，以查看哪些变量会带来最佳结果。

插个题外话，GPT 发展放缓的一个重要原因是高质量文本和其他可用数据的匮乏。

而针对这个问题，Google 研究人员原本寄希望于使用 AI 合成数据，并将音频和视频纳入 Gemini 的训练数据，以实现显著改进，但这些尝试似乎收效甚微。

知情人士还透露，OpenAI 和其他开发者也使用合成数据。不过，他们也发现，合成数据对 AI 模型提升的效果十分有限。

你好，贾维斯

再见，GPT，你好，推理「o」。

在前不久举行的 Reddit AMA 活动上，一位网友向 Altman 提问，是否会推出「GPT-5」，以及推理模型 o1 的完整版。

当时，Altman 回答道：「我们正在优先推出 o1 及其后续版本」，并补充说，有限的计算资源使得同时推出多个产品变得困难。

他还特别强调，下一代模型未必会延续「GPT」的命名方式。

现在看来，Altman 急于与 GPT 命名体系划清界限，转而推出以「o」命名的推理模型，其背后似有深意。而推理模型的布局或许还是在于为当下主流的 Agent 埋下伏笔。

最近，Altman 在接受 YC 总裁 Garry Tan 的采访时，也再次谈到了 AGI 五级理论：

L1：聊天机器人具有对话能力的 AI，能够与用户进行流畅的对话，提供信息、解答问题、辅助创作等，比如聊天机器人。

L2：推理者像人类一样能够解决问题的 AI，能够解决类似于人类博士水平的复杂问题，展现出强大的推理和问题解决能力，比如 OpenAI o1。

L3：智能体不仅能思考，还可以采取行动的 AI 系统，能够执行全自动化业务。

L4：创新者能够协助发明创造的 AI，具有创新的能力，可以辅助人类在科学发现、艺术创作或工程设计等领域产生新想法和解决方案。

L5：组织者可以完成组织工作的 AI，能够自动掌控整个组织跨业务流程的规划、执行、反馈、迭代、资源分配、管理等，基本上已经与人类差不多。

所以我们看到，与 Google 以及 Anthropic 一样，OpenAI 现在正在将注意力从模型转移到一系列称为 Agent 的 AI 工具上。

今天凌晨，彭博社曝出，OpenAI 正在准备推出一款名为「Operator」的新型 AI Agent，能够使用计算机代替用户执行任务，如编写代码或预订旅行。

在周三的一次员工会议上，OpenAI 领导层宣布计划在一月发布该工具的研究预览版，并通过公司的应用程序接口（API）向开发者开放。

在此之前，Anthropic 也推出了类似的 Agent，够实时处理用户计算机任务并代为执行操作。与此同时，微软近期推出了一套面向员工的 Agent 工具，用于发送邮件和管理记录。

而 Google 也正在筹备推出自己的 AI Agent。

报道还透露，OpenAI 正在进行多个与 Agent 相关的研究项目。其中，最接近完成的是一款能够在网页浏览器中执行任务的通用工具。

这些 Agent 预计将能够理解、推理、规划并采取行动，而这些 Agent 实际上是一个由多个 AI 模型组成的系统，并非单一模型。

比尔·盖茨曾经说过，「每个桌面上都有一台 PC」，史蒂夫·乔布斯说过，「每个人的手上都有一部智能手机」。

现在我们可以大胆预测：每个人都将拥有自己的 AI Agent。

当然，人类的终极目标是，我们更希望有一天能够对着眼前的 AI 说出那句电影的经典对白：

你好，贾维斯

http://mp.weixin.qq.com/s?__biz=MjM5MjAyNDUyMA==&mid=2651029199&idx=1&sn=6e8e477283789c904b9629a3ad1a9c82

APPSO

AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI

字节跳动起诉前实习生并索赔 800 万/华为百万级轿车 48 小时预订量达 2108 台/支付宝上线「AI 帮找工作」功能

Sora 泄露事件背后，艺术家为什么要集体反抗 OpenAI？

AI 视频巨头重磅更新！提示词都不用费劲写了，从未有过这样的视频创作方式

OpenAI 再获软银 15 亿美元投资 / 比亚迪回应要求供应商降价:非强制要求/《王者荣耀》卫冕 10 月全球手游收入冠军

Sora 遭遇严重泄露！艺术家愤怒「复仇」OpenAI，测试渠道全网疯传

史上最薄 iPhone 或全面取消实体SIM卡/预售价百万起，华为发布尊界S800/英伟达展示AI语音模型

Mate 70 发布！华为最强 AI 手机来了，余承东高呼对得起「那四个字」

网易云音乐怒斥 QQ 音乐「剽窃式创新」/华为Mate70系列支持 AI 手势隔空传送/库克来华：没中国就没苹果今天的成就

国行 iPhone 16 实现 AI 自由，三步就够了

微信内测原图原视频 14 天自动清理功能/iPhone17系列仅Pro机型搭载5倍光学变焦/AI助力，陶哲轩宣布等式理论计划成功

AI 聊天机器人让用户去死，大学生吓到崩溃，官方紧急道歉

AI或成华为Mate70最大卖点/苹果Siri大升级，2026年拟超ChatGPT/可口可乐AI广告翻车|Hunt Good周报

刚刚，黄仁勋获港科大荣誉博士，演讲大秀中文，称 AI 可能是人类历史上最重要的技术

你画 AI 猜，这个开源 AI 图像神器，在玩一种很新的 P 图

小米将承担 SU7 自动泊车异常维修费用/麦当劳和支付宝力推「碰一下点餐」/OpenAI 正考虑推出自研浏览器

国产大模型黑马的首个推理模型来了，和 o1 PK后，我发现了AI深度思考的大问题

《黑神话：悟空》获金摇杆奖年度游戏/胖东来回应「员工结婚不许要彩礼」/OpenAI 薪酬曝光，奥特曼年薪仅 55 万

农夫山泉钟睒睒炮轰张一鸣，要求道歉/马斯克：AGI最晚2026年实现，人形机器人超100亿/曝华为鸿蒙智行销售车型明年翻倍

初代星舰最后一飞！首次在太空点燃猛禽发动机，马斯克、特朗普现场观看

iPhone 17 Air 厚度曝光，将是苹果最薄手机/余承东展示华为Mate70 细节/阿里通义千问发布新开源 AI 模型

马斯克与 OpenAI 决裂内幕全曝光！这封邮件让他破防，怒斥「我受够了」

从 GPT-2 开始玩 AI 的博士生，把论文做成了上线 Steam 的独立游戏｜AI 新职人

华为Mate70系列开启预售，预约人数超200万/《黑神话：悟空》获TGA年度游戏提名/英伟达AI芯片被曝存在过热问题，交付推迟

马斯克新 AI 破解千年难题却被紧急喊停？这个「玩笑」怎么让 AI 圈一夜未眠

首发 | Kimi 首个多模态功能体验，AI 一键为音乐生成 MV，月之暗面不再只卷长文本

华为 Mate 70 定档海报提前曝光/AI 疑似证明黎曼猜想，已被叫停/vivo X200 系列更新改善炫光

看着这个 AI 奶奶把骗子耍得团团转，可把我高兴坏了

马斯克再谈约架扎克伯格：随时奉陪/传满血版 o1 下月推出/苹果或将推出 AI 智能家居中控屏 | Hunt Good 周报

Kimi 发布新模型对标 OpenAI o1！月之暗面创始人回应近期争议

给马斯克上了瑞士卷大考后，我终于拿捏这个国产 AI 视频模型的最强新功能

17 岁高中生写了个神级 Prompt，直接把 Claude 强化成了满血 o1

余承东曝Mate70将在本月26日发布/美团哈啰单车在郑州停运，哈啰已恢复/OpenAI 拟打造AI 经济区与中国竞争

AI 最可怕的不是取代人类，是已经让我们不相信看到的是真照片

iPhone 15成Q3全球销量最高智能手机/OpenAICEO辟谣AI发展「撞墙」论/B站上市后首次单季度盈利

苹果广告又翻车，给 AI 产品做创意怎么就不能 Think different

OpenAI 下一代模型遭遇重大瓶颈，前首席科学家透露新技术路线

曝小米AI眼镜将于明年发布，雷军预期出货30万台/马斯克新职务官宣，狗狗币大涨/苹果或将推出 AI 智能家居中控屏

黄仁勋最新演讲：每家公司都将成为 AI 制造商 | 万字实录

OpenAI 总裁宣布回归！结束「最长假期」，将专注重大技术挑战

2025 放假安排公布，增加两天假期 / 李子柒恢复更新，播放量破亿 / 百度发布首款 AI 眼镜

百度发布首款 AI 眼镜！比 Meta 爆款更卷，苹果也在押注的智能眼镜正在爆发

支付宝崩了上热搜，官方致歉/字节豆包发布新模型，AI 一句话 P 图/罗永浩发文怒喷餐厅卖预制菜

人类智力锁死在了 2021，OpenAI CEO 预言 AGI 可在 5 年内实现 | 万字专访实录

独家首测：全新 Mac mini 的 Type-C 接口能供电了？实测后，我们发现了苹果的秘密

OpenAICEO ：AGI将于2025年到来 / iPhone 部分旧款机型降至半价 / 开封夜骑爆火，官方喊话夜骑大学生

黄仁勋两万字访谈实录：希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

传 Sora 两周内推出/OpenAI 元老、北大校友翁荔宣布离职/Google 版「贾维斯」泄露 | Hunt Good 周报

打败 Midjourney，匿名屠榜的 AI 生图黑马，让人人都能设计海报

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉