大模型混战这一年：进化之赛、效率之争、落地之战

科技 2024-12-09 21:01 河北

文/王慧莹

日行千里，烈火烹油的两年过去，飞速发展的大模型行业怎么样了？

与两年前“百模大战”为技术争夺的景象不同，玩家们有两个速度之争：一是技术迭代和产品更新的速度，二是商业化赚钱和应用落地的速度。

技术和产品的迭代很直观，直接推动大模型行业的百舸争流。从语言大模型，到文生视频大模型，再到3D生成大模型，几乎每隔几个月就会有让人眼前一亮的大模型出现。

大家都在尝试和摸索。每一次技术的扩大亮相，都会将具有前瞻性的大模型厂商推到聚光灯下，并引发新一轮的行业追随。

有人领先，就有人追赶。这些尚未成熟的技术，给了探路者弯道超车的机会，也带来了商业化的压力。

尤其是进入今年下半年，整个行业的风向更加微妙。市场逐渐对大模型祛魅，资本也回归理性，行业的两股势力也发生了站位的转换。

一边是阿里、字节等巨头投入的动作明显加快，收编大模型创业公司的核心人才，推出一系列AI产品；一边是创业公司开始重新评估自身的路线，国内“AI六小虎”有两家逐步放弃预训练模型，业务重心转向AI应用。

这背后，直指行业第二个速度之争：商业化的效率。

毋庸置疑，当下的大模型赛道高度拥挤，随着算力成本上涨、算力分配有限，对创业公司而言，大模型这场战役时间线拉得越长，创业公司的压力就越大。

“AI大模型（赛道），将只剩下10家企业扮演重要角色。”中国工程院外籍院士张亚勤曾表示。这几乎是行业的共识，最后的胜利属于少数的玩家。

大模型最终会进化成什么样，还不确定，但可以确定的是，大模型浪潮下，技术仍在迭代，场景仍在惊艳，商业化也始终在探索的路上。

过去两年，大模型不缺惊艳时刻，行业也处于百家争鸣的阶段，无论是暂时领先的玩家，还是奋力追赶的玩家，都有机会在奔跑中，抢到更多的蛋糕。

Part.01

3D世界、自主 Agent、

思考大模型……大模型惊艳迭代

从ChatGPT的惊艳亮相开始，新一轮的AI浪潮整整奔涌了两年。AI想象力被重启，大模型站上C位，围绕大模型的讨论和尝试也爆发式增长。

大模型的终局是什么样的？这一问题的答案吸引众多玩家前赴后继地卷技术、卷应用。

根据lifearchitect.ai数据，截至目前，全球总共有467个大模型。新技术不断涌现，行业竞速赛愈演愈烈，大模型厂商都在不断迭代升级，旨在离AGI更进一步。

进入到今年，除了应用上的百家争鸣，一个明显的变化在于，以ChatGPT为代表的大语言模型局限性日益显现。比如，他们只能处理文本领域的任务，无法与物理和社会环境进行互动；虽然大模型语料库已经十分丰富，但关于人类的价值观的文本，他们并不具备理解能力……

技术被重构，大模型行业也在不断改进和进化中，行业在寻找下一个更“类人”的模型或应用。

北京时间12月3日，“AI教母”李飞飞创立的World Labs推出最新成果：世界模型，一张单个图像即可生成3D世界。

图源World Labs官网

以往，我们熟知的大多数GenAI工具仅能制作图像/视频2D内容。World Labs则实现了在3D中生成，视频的控制性、一致性能得到改善。World Labs称，他们所生成场景的独特之处在于它们具有交互性，而且是可修改的。

这是今年9月份创立World Labs以来，李飞飞团队推出的首个成果，也是其迈向空间智能的第一步。早在成立之初，李飞飞团队瞄准的就是空间智能，其初衷就是空间智能的AI，能够对世界进行建模，同时根据3D时空中物体/地点/交互进行推理。

李飞飞的个人影响力，加之空间智能的想象力，World Labs成立三个月，有消息称其估值达10亿美元。

两天后，北京时间12月5日，Google Deepmind紧随其后发布了最新基础世界模型Genie 2。作为今年初推出的Genie模型的升级版，Genie 2只需要一张图就能生成可玩的AI系统。DeepMind透露，Genie 2具备从不同视角（如第一人称视角与等距视角）生成连贯世界的能力，这些生成的世界可持续时间长达一分钟，尽管多数情况下维持在10到20秒之间。

如果说世界模型展现的是模型理解虚拟世界运作规律，并准确做出预测的能力，那OpenAI今年9月推出的o1系列模型则在于会思考。

彼时，OpenAI CEO奥特曼对o1信心满满，“我认为这次 o1 模型发布最重要的信息是，AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握。”

与GPT系列模型不同，o1系列模型有更强大的“思路链”，模型会在思考后回答用户问题，输出高质量的内容，而非迅速回应无效回答。此外，o1系列更擅长推理，推理能力大幅提升，特别是在奥数、编程等领域展现出了优势。

行业风向标的新动作，引发国内大模型厂商的追赶。11月16日，月之暗面公布了k0 math；11月20日，Deepseek上线DeepSeek-R1-Lite大模型；11月27日，昆仑万维推出“天工大模型 4.0” o1 版……无一不在强调大模型的逻辑思考能力。

无论是哪种路线的大模型进化，都让人类离AGI更进一步。

其中，在应用层面，今年还有一个趋势不能忽视，人类与机器的互动方式正在发生范式转变，拥有对话功能的GPT逐渐进化能行动的AI Agent（智能体）。

市场研究机构 Research and Market在11月11日发布的报告中指出，未来五年AI智能体的市场规模将增加420亿美元。麦肯锡也表示，AI智能体将是生成式AI的下一个前沿。

具体到玩家的动作上，“有手、有脑、有眼睛”的AI Agent成为玩家抢滩的对象。

10月份，作为最早探索Agent的初创企业智谱，推出自主智能体AutoGLM ；一个月后的Agent OpenDay上，智谱展示了AI Agent的最新成果，包括AutoGLM、AutoGLM-Web、GLM-PC三个版本，对应手机、浏览器、电脑的应用场景。

新升级的AutoGLM能够理解超长指令，执行超长任务，在多步、循环任务中，AutoGLM的速度表现超过人手动操作。可以预见的是，当技术足够成熟，一个Agent就能帮助人操控一切。

此前，微软Ignite大会上，微软宣布已建立全球规模最大的企业级AI Agent生态系统；前OpenAI高管创办的初创公司Anthropic推出名为Claude的AI智能体；OpenAI被传出将在2025年1月发布代号为Operator的智能体。

在国内，智能体也百花齐放。一边是手机厂商开始拿出智能体、智能助力讲故事；一边是巨头下场做智能体。比如字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼、……

这一年，大模型不缺惊艳时刻。会思考的大模型、会想象的大模型、会预测的大模型，站在大模型技术的潮头，走向AGI的路上，更惊艳的产品迭代一直在发生。

Part.02

AI视频，新的角逐中谁都不甘落后

时间回到今年2月，行业军备竞赛持续一年，OpenAI再次将大模型行业推至高潮。OpenAI以世界模拟器的名号发布了视频生成模型 Sora，让“一句话生成视频”变成可能。

行业的加速器来自Sora。追赶Sora、超越Sora，几乎成了海内外大模型玩家的共识。

在海外，今年5月，谷歌发布对标Sora的文生视频模型Veo；6月，Luma推出Dream Machine视频生成模型，AI视频生成初创公司Runway推出Gen-3 Alpha模型。

将视角放到国内，玩家们为“中国版Sora”争先恐后，催生两轮爆发期。

先是今年5月开始，生数科技Vidu、快手可灵、字节即梦、智谱清影、商汤Vimi等都相继发布文生视频模型。

今年9月，国产视频生成大模型又迎来了新一轮爆发。MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级。

今年11月，腾讯混元大模型正式上线视频生成能力。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。另一边，月之暗面旗下Kimi被爆出正在内测AI视频生成功能“Kimi创作空间”，可通过12种预设风格模板和自定义创作功能，为用户制作个性化音乐视频。

两轮爆发期间，随着初创企业和巨头的入局，AI视频赛道正变得拥挤。更关键的是，经过上半年密集发布新产品的阶段，想要在竞争中突出重围，行业的比拼从“有没有”升级为“好不好用”。

为了变得好用，升级更新是玩家们的统一动作。在国内，动作最快的莫过于有视频基因的快手和抖音。

截至今年9月，快手可灵经历了十次迭代升级。目前，在可灵1.5模型的支持下，可灵AI可以直出1080p高清视频，挑战大屏清晰度与质感。在图生视频方面，可灵1.5模型可以响应更复杂的文本描述要求。此外，可灵AI还支持运动笔刷、对口型等功能。

可灵AI对口型功能，图源可灵AI微信公众号

快手科技2024年投资者日上，快手主站业务与社区科学线负责人盖坤介绍，已有累计超260万人使用过可灵AI，并累计生成超2700万个视频、5300万张图片。

同为视频赛道的字节，与快手正面交锋。今年一季度，字节AI研发团队将视频生成模型的优先级排在前列。3月底，即梦开启视频生成功能内测；9月，字节发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance，并通过即梦AI、火山引擎小范围邀测。

相比于之前的视频生成模型大多只能完成简单指令，字节的这两款模型能让视频在大动态与运镜中自由切换，拥有变焦、环绕、目标跟随等多镜头语言能力，能更好地服务在视频、电影领域的专业创作者。

11月，Seaweed面向平台用户正式开放。据字节方面介绍，本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版，仅需60秒即能生成时长5秒的高质量AI视频，领先国内业界3至5分钟的所需生成时间。

从底层技术看，AI视频赛道玩家的路线基本一致，即采用Transformer架构的新型扩散模型DiT，进行相关扩散、生成的技术突破。也就是说，玩家更多是通过训练数据丰富产品功能。

这也是字节、快手在AI视频赛道跑得更快的原因。“Sora们”切入的60s视频正是字节、快手的基本盘。在短视频生态下，二者有丰厚的视频土壤滋养，这种视频数据的训练，正是推动大模型“好用”的关键因素。

历经近一年，国内文生视频大模型赛道进入了Sora时刻。AI视频大模型的生成能力迈入新阶段的同时，我们也要看到行业的焦虑。

从实际落地层面上看，如果是B端商业生产，短剧、电影、广告对画面的连续性、一致性要求很高；如果是C端用户娱乐，对AI生成的最大要求是真实性。

需求倒逼技术，想实现真正的好用，并不容易。

从技术上看，当下视频模型在理解、创作物理世界方面的表现依旧有限，画面的连贯稳定、主体的一致真实以及视频的时长都亟需迭代进化。

从成本上看，当下的视频技术很难下放到寻常百姓家，名噪一时的Sora至今仍处于研究阶段，仅面向少数专业人士进行内测，很大一部分原因就在于高昂的成本。

再回到AI视频是行业趋势的这个问题上，厂商们之所以纷纷下注，一方面是因为行业需求催生了市场规模。

头豹研究院数据显示，2021年中国AI视频生成行业的市场规模为800万元，预计2026年，这一市场规模将达到92.79亿元。

另一方面，大模型的商业落地进度越来越迫切，相比于ChatGPT这种聊天机器工具，AI视频生成是大模型技术商业化落地更具潜力的赛道。

Part.03

效率之争、落地之战

两年，给行业带来技术革命，也让行业变得冷静。

今年7月，2024世界人工智能大会上，百度创始人李彦宏在演讲中提到，“2023年国内出现了百模大战，其实造成了社会资源的巨大浪费，尤其是算力的浪费。”

李彦宏言辞激烈的背后，是整个行业更加理性。市场期待在模型之中长出能落地的应用，为大模型厂商赚到钱、为各行各业提供效率。

抛开技术问题，这注定是一场应用落地的效率之战，这也就回到了商业化的问题上。

从去年“百模大战”，到今年应用之战，无论是哪个阶段，商业化都是大模型行业反复提到的话题。大模型的特殊性在于“烧钱”，技术上的研发成本，应用上的运行成本，每一步都少不了真金白银的支持，这也是大模型企业们的“紧箍咒”。

在国内，相比于两年前焦灼地坐上牌桌，争做“中国OpenAI”的执念，这群AI明星企业将重点放在了商业化落地应用的探索上。

据智能涌现报道，被称为“AI六小虎”的6家中国大模型独角兽（智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰）中，已经有两家逐步放弃预训练模型，缩减了预训练算法团队人数，业务重心转向AI应用。

这透露了市场两个曲线，一个是部分初创企业正被困在商业化的焦虑里；二是行业商业化战线拉长，巨头的战斗力更足。

比如去年只发布了语言大模型的字节，今年一口气补全了视频、3D、音乐等多领域的大模型。在应用层面，字节陆续推出了十几个AI应用，覆盖了娱乐、对话、Agent等多个产品方向。

在C端表现上，下半年巨头商业化的影响力更为突出。据数据分析机构QuestMobile，字节豆包App今年9月的日活已达760万，成为中国日活最大的AI产品。

这一趋势下，大厂和创业公司的角色站位也发生变化。尤其是步入今年下半年，当资本冷静，一些AI明星创业公司被巨头收编，大模型创业公司高管加入大厂。

这验证了大厂坚决投入AI的重要性。AI是个增量，不仅能为大厂原有业务带来新的想象力，大厂原有的业务场景也可以为AI提供商业闭环。

不过，尽管是资源和场景更为丰富的大厂，面对市场对其巨额AI投入何时能换来回报的质疑时，也有些迷茫。

迷茫的背后，还有个更重要的问题：Scaling Law还成立吗？

所谓Scaling Law，是大模型行业的一个重要技术原理。具体而言，OpenAI四年前曾经发布过一篇论文表示，模型的性能会随模型参数量、数据量、计算资源增加而指数提升。

只要Scaling Law 还成立，那么大模型的能力就可以通过算力、参数、数据的训练实现AGI。

行业仍是积极的。特别是OpenAI推出o1后，标志着大模型能力突破到了L2阶段。大模型开始真正拥有了逻辑思维能力，在无人力干预的情况下进行规划、验证和反思。

某种程度上，o1打破了预训练的 Scaling Law 瓶颈，商业上解锁了新的可能。在OpenAI和智谱给出的“通往AGI五阶段”的定义中，两家公司均将多模态和语言能力归在L1阶段，也就是最为基础的能力配备。

这个行业，从ChatGPT，到Sora，再到o1，OpenAI仍是具有时代性的公司。也许和过去一样，哪个大模型厂商能最先追上o1，市场还会迎来一波新高潮。

追赶技术的路上，玩家们不能忽视的是如何把钱花到刀刃上，这是一场技术、应用、场景的效率之战。

眼下，行业的淘汰赛已经开始，李彦宏曾预测，在未来AI浪潮里，市场中99%的伪创新都将被淘汰，只有1%的企业能够脱颖而出。谁是这1%，谁能创造“新”世界，要等市场给出答案。

>End

>>>

本文转载自“连线Insight”，原标题《大模型混战这一年：进化之赛、效率之争、落地之战》。

为分享前沿资讯及有价值的观点，太空与网络微信公众号转载此文，并经过编辑。

未按照规范转载及引用者，我们保留追究相应责任的权利

部分图片难以找到原始出处，故文中未加以标注，如若侵犯了您的权益，请第一时间联系我们。

HISTORY/往期推荐

商业火箭，想说爱你不容易——（一）中途夭折的商业火箭起步之旅

商业火箭，想说爱你不容易——（二）难以复制的SpaceX

商业火箭，想说爱你不容易——（三）中国商业火箭未来之路怎么走？

>>>

充满激情的新时代，

充满挑战的新疆域，

与踔厉奋发的引领者，

卓尔不群的企业家，

一起开拓，

一起体验，

一起感悟，

共同打造更真品质，

共同实现更高价值，

共同见证商业航天更大的跨越！

——《太空与网络》，观察，记录，传播，引领。

>>>

·《卫星与网络》编辑委员会

高级顾问：王国玉、刘程、童旭东、相振华、王志义、杨烈

· 《卫星与网络》创始人：刘雨菲

· 《卫星与网络》副社长：王俊峰

· 微信公众号（ID：satnetdy）团队

编辑：艳玲、哈玫，周泳、邱莉、黄榕、娜娜

主笔记者：李刚、魏兴、张雪松、霍剑、乐瑜、稻子、赵栋

策划部：杨艳、若㼆、李真子

视觉总监：董泞

专业摄影：冯小京、宋伟

设计部：顾锰、潘希峎、杨小明

行政部：姜河、林紫

业务部：王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜，请加微信：15910858067

商务合作；展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广；企业口碑传播及整体营销传播等，请加微信：13811260603

杂志订阅，请加微信：wangxiaoyu9960

· 卫星与网络各分部：

成都分部负责人：沈淮

长沙分部负责人：宾鸿浦

西安分部负责人：郭朝晖

青岛分部负责人：江伟

· 卫星与网络总部负责人：农燕

· 会议活动部负责人：乔颢益、许克新、董今福

· 投融资及战略层面合作：刘雨菲

· 本平台签约设计公司：一画开天（北京）文化创意设计有限公司

· 航天加（深圳）股权投资基金管理负责人：杨艳

太空与网络

充满激情的新时代，充满挑战的新疆域，与踔厉奋发的引领者，卓尔不群的企业家，一起开拓，一起体验，一起感悟，共同打造更真品质，共同实现更高价值，共同见证商业航天更大的跨越！ ——《太空与网络》，观察，记录，传播，引领。

最新文章

欧空局：2024年遥感领域重大事件

宇宙人(1652期）星图测控开启申购，发行价格为6.92元/股；三星在英国起诉中兴通讯； xAI公布60亿美元融资部分投资者名单

美国制裁8年仍是全球第一：他打造了外媒眼中“最可怕的中国制造”

上海低空经济国资平台成立：注册资本9亿元、背后有机场集团等六大股东

宇宙人(1651期）2025载人航天飞行任务标识投票通道开启；美军事卫星在轨解体，产生50多块碎片；卫星加油站将于2027年建成

这位中国老板，掌控全球半导体关键金属，却鲜为人知

卫网君：9.24亿 “卖天” 中止，对低空经济有哪些影响？SLS重型火箭项目面临取消；未来太空发射成本会降至什么水平？

年包70万挖人、出海精准撒钱，中国公司与Sora短兵相接

也说遥感共性产品，行业需要什么样的遥感产品？

互联网低轨01组卫星上天，还有12992颗将与美星链比拼

宇宙人(1650期）嫦娥六号月球样品揭示人类首份日背古磁场信息；卫星导航位置服务系统在澳门开通；三家公司将合作推出GTO拼车服务

特斯拉皮卡入华，怎么这么难

为什么有的手机能连卫星？

特斯拉拥抱激光雷达，恐怕只是一个误会

宇宙人(1649期）谷神星一号海射型遥四运载火箭一箭四星成功发射；嫦娥六号、低轨通信卫星星座入选“2024全球十大工程成就”

全球追打英伟达

一文看懂SpaceX和我国商业航天新局

北斗规模应用亟待有个远景规划

宇宙人(1648期）神十九乘组首次出舱刷新多项纪录；星图测控拟在北交所上市；220吨级大推力补燃循环氢氧发动机首次整机试验成功

6000亿，60家，首批“推荐IPO”企业名单定了？

史上最大独角兽诞生：SpaceX估值25000亿

"中国看到了这一切，正加大投资卫星项目挑战星链"

宇宙人(1647期）星网01组轨道数据；神十九航天员近日将首次出舱；星链明年收入预计达118亿；ULA欲将上面级改为留轨作战平台

智谱又融了30亿！超200亿估值引领大模型创业赛道

中国星网，来了

“5倍声速”搭上“星链”，高超声速无人机时代拉开序幕？

宇宙人(1646期）海南商业发射场一号工位将迎长征八号首秀；中国航天商业卫星公司在津建成年产能过百颗卫星的生产线；S33静态点火

中美科技合作协定终获续签，但这些关键技术被排除其外

卫网君：嫦娥七号将携带分辨率达0.275米的高分立体相机；长光卫星应把主要精力放在应用模式开发和市场开拓上；星链的网速在变慢吗？

为什么硅谷的科技巨头们正在强势押注核能……

硅谷投资人：马斯克星舰打开太空经济赛道

10年亏掉480亿美元，AT&T甩卖有线电视

宇宙人(1645期）长二丁成功发射高速激光钻石星座试验系统；Viasat在阿联酋首次演示手机直连卫星；导航故障致机智号任务终结

欧洲新能源大败局：花200亿美元做不好一块汽车电池

美智库：实现天基核指挥、控制和通信的现代化

身家4000亿美元！马斯克，史上第一人！

宇宙人(1644期）澳大利亚“抓拍”中国资源三号卫星；科学家建议在月球建“天眼”；Orbite通过A轮融资扩大豪华太空训练

通用梦碎自动驾驶

低轨通信卫星行业产业链分析：相控阵T/R组件价值量占比高

美国对中国激光雷达忧心忡忡

宇宙人(1643期）嫦娥八号将在月球造人类第一块月壤砖；北京加快打造商业航天产业高地；火箭实验室披露为美国防部完成高超音速试验

谷歌“量子霸权”再进一步，马斯克惊呼：Wow

亚轨道远程极速重载运输系统总体设计与控制技术研究

华邮「SpaceX超能力」报道引人深思……

宇宙人(1642期）执行新型任务的长征五号B即将正式亮相；星舰一级B14进行静态点火测试；德国电信、高通和Skylo试验卫星短信

最高罚款超50亿美元，中国为何会对英伟达动手？

在太空开采阳光：从日本测试高空太阳能传输，到全球探索“卫星光伏”新时代

美国登月又推迟，马斯克能救得了吗？

宇宙人(1641期）长八甲遥一火箭装船起运明年1月首飞；嫦娥七号将携带最新最强的高分立体相机；美国拆除中国通信设备还缺30亿美元

大模型混战这一年：进化之赛、效率之争、落地之战

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

大模型混战这一年： 进化之赛、效率之争、落地之战

大模型混战这一年：进化之赛、效率之争、落地之战