Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

科技 2024-12-18 12:47 北京

机器之心原创

作者：Panda

12 月 2-6 日，亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。会上，亚马逊云科技发布了相当多东西，其中之一便是新的大模型系列 Nova。说实话，这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic，似乎没有必要再自起炉灶了。

亚马逊总裁兼 CEO 安迪・贾西（Andy Jassy）宣布 Nova 系列模型，包括 Micro、Lite、Pro 和 Premier 四个版本，其中后三者是多模态模型。

虽然事实上 Nova 并非亚马逊发布的第一款基础大模型 —— 这家科技巨头在 2023 年的 re:Invent 大会上就曾发布过 Titan 系列 AI 模型，但考虑到前段时间关于「Scaling Law 是否撞墙」的问题甚嚣尘上，很多人都认为继续耗费资源和时间来训练基础大模型并不划算，还不如基于已有的模型进行微调、再训练或推理时间优化。

那亚马逊云科技训练 Nova 就算是无用功了吗？并非如此。实际上，从 re:Invent 大会后一些研讨会上的讨论情况看，亚马逊云科技在基础模型上的投入并未受到「Scaling Law 撞墙论」的影响，依然认为基础大模型大有可为；同时，训练基础大模型对亚马逊云科技自身以及 AI 领域的创业者来说都具有巨大的潜在价值。这篇文章将告诉你为什么亚马逊云科技不可能放弃基础大模型，还会继续一路走下去。

Scaling Law 就算撞墙也无妨
基础大模型依然大有可为

Scaling Law 是否已经或将要撞墙？对这个问题的争论已经遍布整个学术界和产业界。毫不夸张地讲，这个问题的答案直接决定着 AI 领域的资源和资金流向。但到目前为止，即便这个问题已经引发许多业内大佬的争论，我们依然没能看到一个确切答案的苗头。

OpenAI CEO Sam Altman 坚信「没有墙」，而著名研究者 Ilya Sutskever 却多次表示「我们所知的预训练将会终结」，图片分别来自 X 和 NeurIPS 2024 演讲。

虽然关于「Scaling Law 是否撞墙」的争论纷纷扰扰，但刚刚发布 Nova 系列模型的亚马逊云科技显然并不受影响；不仅如此，他们还对基础大模型的前景非常乐观。亚马逊云科技大中华区产品部总经理陈晓建就表达了这样的观点，他说：「到今天为止，基础大模型还远远没有到非常成熟、已经不需要新的提供商入局的阶段，它其实还是在一个非常早期的阶段。」

事实上，恐怕不止亚马逊一家公司这么想，毕竟它并不是唯一仍在积极布局基础大模型的科技巨头。比如苹果就一直在研发规模不大的基础大模型，前些天还刚刚发布了一款多模态模型 STIV；重金支持 OpenAI 的微软也没有放弃自家的大模型，更遑论谷歌和 Meta 了。在国内，字节跳动、阿里巴巴和腾讯等巨头也都有自己的基础大模型项目。陈晓建也说明了这一点：「在亚马逊云科技内部，我们有高度共识认为要做大模型。」

究其根本，目前关于 Scaling Law 是否撞墙的问题其实主要集中在数据上。前段时间有一项研究认为，如果 LLM 保持现在的发展势头，预计在 2028 年左右，已有的数据储量将被全部利用完；前些天 Ilya Sutskever 也表示数据就像是 AI 的化石燃料，迟早会消耗光：「我们已经达到了数据的峰值，未来不会再有更多数据。我们必须利用现有的数据，因为互联网只有一个。」

来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》

但实际上，公共互联网数据并不能完全代表所有数据。人类世界还有很多数据并未数字化或没有公开，包括大量古老的纸质文献、大量涉及机密或隐私的数据、许多物联网和传感器数据以及封闭的行业数据等。

此外，人类每一天都还在继续产生大量新数据 —— 虽然其中绝大部分都是低质量或重复的数据，但也不能否认，当任何一种新技术得到广泛应用，又会创生出大量新形势的高质量数据，而我们又正处于一个新技术迸发的时代，量子计算、生物技术、虚拟和混合现实、物联网…… 它们都有可能成为下一代 AI 的重要数据来源。

因此，就算基于公共互联网的数据 Scaling 撞墙了，基础大模型的发展也不会停滞，私有数据和新型数据有望继续创造新的可能性。

陈晓建也指出了这一点：「数据的价值是毫无疑问的。我们一直在强调，在这个大模型时代，合适的模型和平台只是其中一个部分，远远不是做大模型的全部。你的整个数据资产，你的数据基座才是你真正实现业务差异化的能力。」

此外，已有数据是否已被充分利用也是一个有待商榷的问题，毕竟我们不能保证现在的 token 化方案就是完美的，能够在不丢失任何信息的情况下完成对文本、视频、时间和空间等信息的编码。随着模型规模的扩大以及编码技术的进一步演进，基础大模型或许能从已有数据中发掘出新的养分，实现进一步的 Scaling。

当然，另一个重要的探索方向也不容忽视，即利用 AI 合成高质量数据来训练下一代 AI。

亚马逊云科技开源的一个使用 Amazon Bedrock 生成合成数据集的项目架构，项目地址：https://github.com/aws-samples/amazon-bedrock-synthetic-manufacturing-data-generator

总之，Scaling Law 撞墙论显然无法动摇亚马逊等科技巨头继续投入基础大模型的决心。事实情况可能刚好相反，它们不仅看到了基础模型目前的应用价值，还看到了未来通过技术进步和数据挖掘实现更大突破的机会。

在 re:Invent 大会上，亚马逊云科技发布了多款与数据相关的产品，包括可以连接多个外部数据源的 Kendra Index、让用户可以使用自己的私有数据的结构化数据检索能力、用于知识图谱的 GraphRAG 技术、用于非结构化数据的数据增强功能以及升级版的 SageMaker（将数据、分析和 AI 整合到一起的服务）。陈晓建表示：「所有这些工具都是为了帮助大家更好地把自己的私有数据 —— 无论是结构化还是非结构化数据 —— 通过 Bedrock 平台更方便地跟大模型能力整合起来。」

下一代 Amazon SageMaker 概况，来自亚马逊云科技 re:Invent 2024

在「Scaling Law 是否撞墙」的争论中，亚马逊云科技一方面没有放弃基础大模型，另一方面也在积极探索其它有潜力的技术方向。比如，去年 11 月，亚马逊云科技就宣布为 Bedrock 的智能体（Agents）配备上了思维链（CoT）推理能力；此外，在今年的 re:Invent 大会上，亚马逊云科技还推出了一个名叫 Automated Reasoning checks 的服务，可通过自动推理减少大模型幻觉、检查提高对话式 AI 准确性。

利己也利创业者
为市场提供另一个选择

毫无疑问，亚马逊云科技之所以投入大量资源来训练基础大模型，首先这肯定是对其自身有利的。

我们知道，创业公司或小公司往往缺乏像 OpenAI 或谷歌那样的资源，很难自己训练出满足自身业务的大模型，因此，面向企业（To B）的大模型有一个存在强烈需求的市场。目前，几乎所有的云服务商和大模型服务提供商都在努力争夺这一快速增长的市场的份额。亚马逊云科技，坐在云服务商的头把交椅上，自然不可能错过这块潜力无限的大蛋糕。

亚马逊云科技继续维持在云市场的领先地位，来自 Statista

从用户，尤其是创业者的角度来看，不论是计划自己训练模型的团队，还是希望基于现成模型部署应用的开发者，亚马逊云科技的基础模型都提供了一个有力的替代选项。亚马逊云科技中国区技术合作伙伴总监李奔也在研讨会上提到了这一点，他表示：「我们面对的客户有两种属性：一种是 Buyer 属性，一种是 Builder 属性。Builder 公司可能更喜欢用工具链自己去构建。但还有很多客户群是 Buyer 属性的，他们不大会去自己 build，他们更愿意直接购买好的应用产品来提升能力。」

作为用户，替代选项带来的好处显而易见，尤其是我们中国互联网用户，对此的感受可能尤为深刻。而亚马逊云科技的 Nova 系列可为创业者和小公司提供一个并不比其它竞争者差的替代选项，并且不同规模的版本还能满足不同层次的需求，降低了进入壁垒。比如 Nova Pro 和 Nova Lite 虽然性能不及 Nova Premier，但同样可以处理文本、图像和视频等多种模态的数据。对于预算有限的创业公司来说，这些低成本且性能优越的模型提供了一种能够快速部署并支持创新的解决方案。

使用 Nova Pro 执行文档分析示例，来自亚马逊云科技博客

与此同时，替代选项还能保证创业公司的业务安全。这不，前些天 ChatGPT 宕机事件还历历在目，全世界的用户都深深受到影响。Vozo AI 创始人周昌印在研讨会上也表达了类似的看法：「我觉得对于大模型，我们希望有 Multiple LLM，这对我们的业务来说是比较安全的。」

并且，多样化的选择也能有效激发创新。当多个提供商竞争同一市场时，为了吸引客户，他们必然会不断提升服务质量、优化成本结构。这不仅让创业者能够更轻松地基于基础模型构建应用，还能将更多精力投入到差异化创新中，进一步推动 AI 技术和应用的繁荣发展。

李奔分享了他在跨境电商领域观察到的状况：「这个行业是一个充分竞争的市场，竞争特别激烈，而深圳人使用新工具的速度也非常快。我去年年初到深圳去的时候，发现 GPT 才刚出来，很多跨境电商企业就在用了，使用场景从营销侧一直延伸到售后，包括使用 AI 工具来生成广告和营销素材、执行用户反馈分析、增强中间的各种数据分析等等。亚马逊云科技跟电商客户在这个应用场景里的探索也特别多。」

在基础模型赛道上，亚马逊云科技通过 Nova 系列为企业用户带来了新的可能性，也在一定程度上推动了市场的良性循环与健康竞争。

此外，从亚马逊自身的角度，我们还可以总结出以下几点原因：

强化自身的云服务生态：通过提供基础模型及相关服务，亚马逊云科技可以吸引更多企业上云，并借此深度绑定客户，强化其云计算市场的领先地位。
数据和技术的长远布局：自主训练基础模型能帮助亚马逊云科技积累宝贵的技术和数据经验，形成核心竞争力，并为未来潜在的颠覆性 AI 应用奠定基础。
参与行业标准的定义：通过持续发布基础模型，亚马逊云科技可以在 AI 领域成为标准制定者，塑造行业对模型能力和 API 服务的认知，甚至影响开源模型的发展方向。
增强亚马逊内部服务和产品：基础模型可以直接应用于亚马逊电商平台、语音助手 Alexa 及物流系统，提升搜索、推荐和自动化能力，从而实现全方位优化。
应对竞争压力：在面对谷歌、Meta 和微软等巨头和众多初创企业的竞争时，亚马逊需要保持技术领先。这种战略不仅是防守，更是进攻。

基础大模型体现了亚马逊坚持的长期主义

「长期主义」，是亚马逊创始人及现任董事长杰夫・贝佐斯所著文集的中文版书名，也是亚马逊一直以来都坚持的企业文化。

业内人士普遍认为，构建基础大模型需要大量的资金、时间和技术资源，而亚马逊的坚持与投入展现了它作为科技巨头的责任感与前瞻性。Nova 系列模型的推出表明，亚马逊不仅希望通过自身的技术创新引领 AI 的发展，还致力于降低开发者和企业进入 AI 领域的门槛，为创业公司提供灵活的替代方案。这种多样化选择带来的生态效应，可被视为其「长期主义」文化的具体体现。

而在坚持基础大模型的道路上，亚马逊云科技不仅能稳固和提升自身的市场占有率，还能帮助更多企业进入 AI 应用生态，从而提升整个市场的活力与创造力。这是亚马逊云科技不可忽视的重要贡献。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉