首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

科技 2024-12-26 14:56 北京

新智元报道

编辑：编辑部 Zjh

【新智元导读】Anthropic联创发文表示，谁要是说Scaling Law撞墙了，那他绝对错了！在25年，AI靠测试时计算还会继续加速。不过，随之而来的推理成本也是天价，o3的每个任务成本高达20美元，怎么办？

Scaling Law要撞墙了？

Anthropic联创Jack Clark反驳了这一说法：绝非如此！

在他看来，目前的AI发展还远远没到极限，「所有告诉你AI进展正在放缓，或者Scaling Law正在撞墙的人，都是错误的。」

o3仍有很大的增长空间，但采用了不同的方法。

OpenAI的技术秘诀并不是让模型变得更大，而是让它们在运行时，使用强化学习和额外的计算能力。

这种「大声思考」的能力，为Scaling开辟了全新的可能性。

而Jack Clark预计，这一趋势在2025年还会加速，届时，科技公司都会开始将大模型的传统方法跟在训练和推理时使用计算的新方法相结合。

这个论断，跟OpenAI首次推出o系列模型时的说法完全吻合了。

在同一时间，MIT的研究者也发现，采用测试时训练（TTT）技术，能显著提高LLM进行逻辑推理和解决问题的能力。

论文地址：https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墙，绝对错了

在他的新闻通讯《Import AI》中，Clark对关于AI发展已到达瓶颈的观点进行了反驳。

博文地址：https://jack-clark.net/

比如OpenAI的o3模型，就证明了AI极大的发展空间。

在现有强大基础模型之上，采用一种新方法——让大语言模型在推理时「边思考边执行」，即测试时计算（test-time compute）。这种方式能带来巨大的回报。

因此Clark预计，下一个合理的发展方向将是同时扩展强化学习（RL）和底层基础模型，这将带来更为显著的性能提升。

这意味着，随着现有方法（大模型scaling）与新方法（强化学习驱动的测试时计算等）的结合，2025年的AI进展相对2024年会进一步加速。

OpenAI著名研究员Jason Wei也表示，更加关键的是，从o1到o3的进步也仅仅只用了3个月，这说明了在推动人工智能领域发展方面来讲，强化学习驱动的推理扩展计算范式，会比预训练基础模型的传统扩展范式快得多。

这并非空谈，Clark列举了不少o3的亮眼成绩来证明他的观点。

首先，o3有效突破了「GPQA」科学理解基准（88%），这彰显了它在科学领域进行常识推理和解答的能力。

它在「ARC-AGI」这一任务上的表现优于亚马逊众包平台（MTurk）雇佣的人类工作者。

甚至，o3在FrontierMath上达到了25%的成绩——这是一个由菲尔兹奖得主设计的数学测试，就在几个月前，SOTA的成绩仅为2%。

并且，在Codeforces上，o3获得了2727分，排名第175。这让它成为这一极其困难基准上的最佳竞技程序员之一。

模型成本将更难预测

Clark认为，大多数人还没有意识到未来进展的速度将会有多快。

「我认为，基本上没有人预见到——从现在开始，AI进展将会有多么急剧。」

同时，他也指出，算力成本是急速进展中的一个主要挑战。

o3之所以如此优秀，其中的一个原因是，它在推理时的运行成本更高。

o3的最先进版本需要的算力比基础版多170倍，而基础版的算力需求已经超出了o1的需求，而o1本身所需的算力又超过了GPT-4。

o系列模型的性能与成本

Clark解释说，这些基于推理扩展范式的新模型使得成本预测变得更加困难。

过去，模型的成本费用是很直观的，主要取决于模型的大小和输出长度。

但在o3这类模型中，由于其资源需求会根据具体任务的不同而变化，所以也更难直观地给出模型执行任务时的花费。

o3推理成本达新高

除了FrontierMath和Codeforces上的成绩，o3在GPT Diamond Benchmar上，对于博士级的科学问题也拿到了87.7%，远高于各自领域博士专家70%的平均分。

ARC-AGI基准测试开发者、Keras之父François Chollet，将o3的性能称为「AI能力中令人惊讶且重要的阶跃函数增长」

而这背后付出的代价，就是运行o3极高的成本。

之所以会造成如此高的成本，就是源于o3和其他模型处理问题方式的不同。

传统的LLM主要依靠的是检索存储模式，但o3处理问题时，却是靠实时创建新程序，来解决不熟悉的挑战。

Chollet表示，o3系统的工作原理，似乎和谷歌DeepMind的AlphaZero国际象棋程序类似。后者会有条不紊地搜索可能的解决方案，直到找到正确方法。

这个过程也就解释了，为什么o3需要如此多的算力——只为单个任务，模型就需要处理多达3300万个token。

跟当前的AI系统相比，这种密集的token处理成本，简直是天价！

高强度推理版本的每个任务，运行费用约为20美元。

也就是说，100个测试任务的成本为2012美元，全套400个公共任务的成本则达到了6677美元（按平均每个任务花费17美元计算）。

而对于低强度推理版本，OpenAI尚未透露确切的成本，但测试显示，此模型可以处理33至1.11亿个token，每个任务需要约1.3分钟的计算时间。

o3在ARC-AGI基准测试中必须解决的视觉逻辑问题示例

等待Anthropic的下一步

所以，Anthropic下一步会给我们带来什么呢？

目前，由于Anthropic尚未发布推理模型（reasoning model）或测试时模型（test-time model），来与OpenAI的o系列或Google的Gemini Flash Thinking竞争，Clark的这一番预测，不禁让人好奇Anthropic的计划。

他们之前宣布的Opus 3.5旗舰模型至今仍没有确切消息。

开发周期长达一个月，过程充满不确定性

在11月，Anthropic CEO Dario Amodei曾证实，公司正在开发Claude Opus的新版本。

起初，Opus 3.5定于今年发布，但后来Amodei再提到它时，只是说它会在「某个时刻」到来。

不过Amodei倒是透露，公司最近更新和发布的Haiku 3.5，性能已经跟原始的Opus 3相匹敌，同时运行速度还更快，成本也更低。

其实，这也不仅仅是Anthropic面临的问题。

自GPT-4亮相以来，LLM的功能并没有取得重大飞跃，这种停滞已经成为AI行业内一种普遍的广泛趋势。

更多时候，新发布的模型只是微小的进步，跟之前有一些细微的差别。

开发更先进的LLM，为何如此复杂

在Lex Fridman的播客访问中，Amodei详细讲述了开发这些AI模型的复杂性。

他表示，仅训练阶段，就有可能会拖延数个月，还会需要大量的计算能力，用上数以万计的专用芯片，如GPU或TPU。

预训练过后，模型将经历复杂的微调的过程，一个关键部分就是RLHF。

人类专家会煞费苦心地审查模型的输出，根据不同标准对其进行评分，帮助模型学习和改进。

接下来，就是一系列内部测试和外部审计，来检查模型的安全问题，通常是与美国和英国的AI安全组织合作。

总之，Amodei总结道：虽然AI的突破在圈外人士看来，像一个巨大的科学飞跃，但其实很多进步都可以归结为枯燥和无聊的技术细节。

在此过程中，最困难的部分通常是软件开发、让模型运行得更快，而不是重大的概念进步。

而且，每个新版本模型的「智能」和「个性」，也都会发生不可预测的变化。在他看来，正确训练模型与其说是一门科学，不如说是一门艺术。

即使真正发布的Opus 3.5的性能有了提升，却也不足以证明其高昂的运营成本是合理的。

不过，虽然有人认为Anthropic没有紧跟推理模型的步伐，已经足以反映LLM扩展的巨大挑战；但不得不说，Opus 3.5也并非毫无意义。

显然，它帮助训练了全新的Sonnet 3.5，它已经成为了当今市场上最受欢迎的LLM。

参考资料：

https://the-decoder.com/ai-progress-in-2025-will-be-even-more-dramatic-says-anthropic-co-founder/

https://jack-clark.net/2024/12/23/import-ai-395-ai-and-energy-demand-distributed-training-via-demo-and-phi-4/

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

2025智能世界50震撼预测！AI海啸来袭，5维度看清AGI与潜在可能

DeepMind天才科学家疑抑郁自杀！41岁SuperGLUE之父英年早逝，AI圈悲痛不已

斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

招人！新智元邀你勇闯ASI之巅

史上最激烈H-1B骂战引爆美国！马斯克开炮：进口劳动力断供，美国科技要崩

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

比人类神经元快10亿倍！港中文、中科院「超级大脑」：1秒识图3479万张

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架 | AAAI 2025

田渊栋：2024年年终总结

招人！新智元邀你勇闯ASI之巅

奇点临近！美国47%工作岗位将被ASI卷走，大佬急发「逃生攻略」

o3拿下25%高分震惊数学教授，2025 IMO金牌或被AI收入囊中！

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

招人！新智元邀你勇闯ASI之巅

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

反手就是开源！英伟达豪掷7亿美元收购专攻GPU初创Run:ai

2024年AI编程有多强？谷歌工程主管揭秘残酷真相

招人！新智元邀你勇闯ASI之巅

惊人反转！OpenAI吹哨人死于谋杀？公寓被洗劫有打斗痕迹，马斯克发声

Hinton发2024末日预警：10年内人类灭绝！奥特曼预言18个月ASI降临

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场！

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

2024年人工智能年终总结报告｜Artificial Analysis

招人！新智元邀你勇闯ASI之巅

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

雷军千万年薪挖角95后天才少女，AI女神逆风翻盘！

o1 pro深评博士医学论文，震惊顶尖免疫学家！2分破解神秘作家身份

招人！新智元邀你勇闯ASI之巅

OpenAI大地震一分为二，全力冲刺AGI！一半向钱看，一半装理想

AI掌控编码人类狂按Tab，软件工程自主时代来临！OpenAI董事长Taylor重磅长文

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

招人！新智元邀你勇闯ASI之巅

OpenAI微软「秘密协议」首次曝光：盈利超过1000亿美元就是AGI！

吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！

英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

首篇「角色扮演AI」综述！复旦等提出大模型三层人格分类框架：群体、角色、个性化 | TMLR

招人！新智元邀你勇闯ASI之巅

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

15大机构十年研究证明：无约束AI必然超越人类，创造能力也更强！

英特尔至强6独享MRDIMM，内存带宽飙升，加速推理达2.4倍！

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6% | ICML 2024 Oral

「数字孪生」东京上线！Jim Fan：具身智能零样本迁移现实世界，共享「蜂群思维」

招人！新智元邀你勇闯ASI之巅

蚂蚁群组团最强AGI，破解几何难题完爆人类！群体智能登顶PNAS

美国CS女硕士放弃读博，当主播狂赚100万美金！自曝学术界真相全网唏嘘

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

具身元年压轴，智源线虫登Nature子刊封面！具身智能迎新纪元

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉