Sora到底发布不发布，这事可能并不重要了

科技 2024-11-19 09:43 北京

作者｜玄宁
邮箱｜wangzhaoyang@pingwest.com

Sora是未来的一个碎片

不管你愿不愿意承认，大模型已经进入了更缓慢迭代的节奏。

从“Scaling Law已经撞墙”，到“OpenAI的下一代GPT遇到瓶颈”，再到“Google和Anthropic们的新模型无法再表现出明显的提高”，尽管Sam Altman依然用打哑谜的形式喊着“There is no wall”，但所有人都能感到墙就立在那里，AI们都已经站在了墙的面前。

这对习惯了每天醒来就看到一个模型大更新的人们来说，注定显得乏味了，于是不少人又开始期待Sora——这个OpenAI一直没发出来的模型，能奇迹般的立刻发布，然后拯救一切。

而消息也适时的出现：最新的流言是，Sora将在本周正式上线。包括Runway的联合创始人兼CEO在内的行业人士也“散布”了一下这个流言。

这是个有意思的现象，每当行业沉寂，人们就期待“Sora该出来了”。似乎它能凭一己之力把“大模型又颠覆世界”的事业给续上。

而最近百度创始人李彦宏也被问到了关于Sora的问题，他被问的理由有些不同——因为他是最早明确表示不会“复刻”一个Sora的人之一。

而他的回答也很有意思：

“Sora本质上是在任意场景下的视频生成能力。这件事情有没有意义呢？非常有意义，与此同时又非常难。你想想它的本质是什么呢？本质是可以做到基本可以预测未来。我们今天看到这么一个画面，你可以预测到下一个10秒，这个画面变成什么样子。无人驾驶是一个特殊场景的视频生成，我现在开到这儿了，那我下一秒怎么开，会看到什么样的景象，如果你都能解决的话，那无人驾驶不用做了，都可以靠那东西，可以做出来。”

“预测未来。”——这是个很有科幻色彩的说法，这意味着他其实比很多人更重视Sora的技术意义——就算再喜欢把AGI放在嘴边的人也没几个从“预测未来”的角度来形容它。但同时，这也意味着这种终极能力是今天尚无法触碰到的。

“正因为是这么大的一件事儿，所以我觉得它需要很长很长时间才能够做出来。”

也就是说，它更像一个遥远未来在今天的简单demo——它确实让人向往，但真的要实现，需要的工作还要很多很多年。

现实也正是如此。

进一步放到今天的现实环境，李彦宏认为，“如果真的能够做到任意场景下视频生成，那可能要很长时间，而且成本很高”。

市场研究机构Factorial Funds发布过一个报告，估算了Sora的成本。根据这份报告，Sora至少需要在 4200~10500 块英伟达 H100 GPU 上训练 1 个月。而如果Sora得到大范围应用，为了满足需求，需要约72万张Nvidia H100 GPU，如果按照每片英伟达 H100 AI 加速卡3万美元成本计算，72万片需要216亿美元。

另外，从落地场景来看，今天已经发布了类似Sora的、或者表示已经超过Sora的各类视频生成产品，在效果上也依然挣扎于“抽卡”，在商业化上也依然在继续寻找足够让收支变得合理的场景。恐怕Sora来了也要遇到同样的问题。

应用驱动，会通往更大可能

所以，今天再去看Sora，它发布不发布可能都没有那么重要了。

在展示了一些精挑细选的样片，借此炸场然后不停跳票后，一切都让它看起来更像是提前展示给大家的关于未来的一些碎片。这也让今天行业更加冷静下来后，可以用一个更现实的角度来看Sora。

其实很多人“崇拜”Sora，是被当时OpenAI那句“Sora是世界的模拟器”所打动，认为它是自成一派的新东西。但事实上，回到真实世界里，Sora是OpenAI内部一个小团队做的一次尝试，它用了OpenAI一小部分内部资源（相比其他公司，这部分资源依然可观）孵化的项目。这其实是OpenAI典型的技术创新方式——它的不同团队会基于OpenAI已有的基础模型比如GPT系列、图像模型比如Dalle-3等所积累下来的“要素化”的能力，来组建新的模型和产品，当这个产品成功后，再把它像模块化一样积攒下来，供更多的未来项目所用（比如GPT-4o系列等）。所以它并不是自成一派的彻底的新品种。

这个事实自然在当初一声声“震撼”和“颠覆”声中被忽视了。但今天冷静下来看，除了复刻它，Sora对于AI公司们来说还有更重要的启发，就是一家真正严肃对待AI，以更长期的耐心去做技术的公司，是会有基于技术判断的属于自己的技术拼图的。Sora这样单一的吸睛产品背后，其实更重要的是判断哪些是自己技术路线上最重要的板块，并在技术战略上做取舍。

好在，有这个意识的科技公司正在变得越来越多，其中百度也算是态度最鲜明的之一。

用李彦宏的话来总结，百度的AI技术路线和相关决策都从一件事出发——应用驱动。

“（百度的底层思考）就是应用驱动。这个和美国很多公司做法很不一样，美国很多公司一直都是梦想说我要做颠覆性的技术，我要多少年之内做成什么什么样子。我更多希望尽早接触场景及接触应用，看在这个过程当中，到底遇到了什么问题，把这些问题带回来，我们综合一下，看大家遇到的最多的问题，就是我们优先解决的问题。”

当明白了应用驱动是百度所有战略的起点，李彦宏在战略上放弃Sora类产品的决定就更好理解了。而其他的技术投入方向也会跟着这个原则来确定。

从应用驱动出发，百度的技术方向会围绕让应用更好落地展开，而这个过程里有两个巨大挑战，一个是交互，一个是智能。

在交互上，今天的模型需要更好的人与产品、以及产品与物理世界的交互，单纯的语言模型无法满足这样的需求，需要多模态的能力。

“外界有一种误解就是百度不做Sora，就等于是百度不做多模态。我们非常非常看好多模态，我们也在多模态上有非常长期的多年投入，在真正有应用场景的地方，我们的多模态能力是非常强的。”李彦宏在最近的对话里说。

这是百度一直投入的重要方向。Sora的出现让人们意识到语言之外的视觉模态的重要性，但它远远并非“多模态”的全部。人工智能中的多模态指数据或信息的各种表现形式。除了文本，图像和视频，还包括音频模态、传感器数据（温度、湿度、触觉信息）、代码、数学公式等等。

而在智能上，百度的做法如李彦宏所说——“事实上，我很多的研发资源还是投在了外界看来基础的能力或者理想主义者看重的东西。我们在做，我们不断地在这方面加大投入、付出努力。我只是觉得，没有必要把这些只有极少数人才能够听得懂或者说才会appreciate的东西到处去讲。我需要倒出去讲的是，更多的人，几千万人，几亿人确确实实能够用得到的东西。”从“让几亿人可以用到”的实际出发，被幻觉所扰乱的智能不是真的智能。这是李彦宏希望百度去解决的问题。

于是二者结合，百度推出了iRAG技术（检索增强的文生图技术 iRAG，image based RAG）。它是多模态和降低幻觉两个重点技术方向的融合。它将搜索与文心大模型联合优化，将百度搜索的亿级图片资源跟强大的基础模型能力相结合。李彦宏在最近的世界大会上，展示了它让生成的图片更真实、准确的例子。这样的效果，能够大幅降低影视、漫画，连续画本等场景里AI生成图片的成本。

如典型的百度风格那样，这些多模态底层能力也在第一时间开始寻找那些更清晰的落地场景。数字人是重要的方向之一。

“我们今天讲的多模态，实际上是解决另外一类型的问题。比如数字人，不是纯语言模型，你生成的文字要用语音表达出来，语音表达的时候口型要能对得上，手势应该做什么，我如果转头了，侧面的图像能不能跟正面保持一致等等，看起来都是一个比较简单的事情，但是你仍然需要解决。靠任意场景下生成视频的东西，不一定能把这事儿解决得很好。如果真的能够做到任意场景下视频生成，也许能够解决。那可能要很长时间，而且成本很高。”李彦宏说。数字人是一个全面考验多模态能力的场景，同时也是一个要求更务实方案的真实商业化需求。

“我用简单的方法，就能够做到，那我为什么不呢？先把这些事儿解决了，让这个应用能够跑起来，这是我们的思路。”

据了解，其从2019年起就开始布局数字人领域，在语音克隆、唇形同步、表情动作捕捉等一系列关键技术上有多年积累。今天，百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。

在百度世界大会上，李彦宏也展示了被他称为“角色智能体”的多个数字人案例。这些数字人已经可以做到效果自然、动作幅度更大，在一些场景的转化率已经超过了真人。

“我们非常相信，真人与虚拟人的交互，将创造巨大的产业价值和社会价值。这里的虚拟人，可能就是现实生活中的一位名师的数字分身，也可能是一位名医、王牌律师和金牌销售的数字分身，而你从来没有像现在这样离他们如此之近。”李彦宏说。

当然，除了iRAG和数字人，作为多模态大模型最大的落地场景之一，自动驾驶也是百度多模态能力的重要体现。

2024年7月，百度对外发布了全球首个支持L4级别无人驾驶业务的大模型Autonomous Driving Foundation Model（ADFM），这也是萝卜快跑的核心技术。ADFM包括感知大模型和规划大模型，两者通过联合训练，从原始数据捕捉到油门和转向输出，形成端到端的自动驾驶系统。

这款大模型结合硬件产品与安全架构，通过多重安全冗余与管理策略，确保了车辆的稳定与可靠。Apollo ADFM的引入，标志着自动驾驶技术的安全性与泛化性达到了前所未有的高度，其性能超越了人类驾驶员十倍以上，成功覆盖城市级全域复杂场景。

空谈AGI，不如让真实的应用来给行业信心

所有重要的技术似乎都逃不开曲折前进的周期，而身处其中的人冷暖自知。今天在AI产业里蔓延着的普遍情绪是，泡沫正在慢慢破裂，人们已经无法通过听一些人空谈AGI来获得对未来的信心。

怎么办？

当人们从“颠覆性技术”的预期中醒来，建构信心的方式就需要改变。大模型带来的技术革新依然是巨大的，所以换个角度来看，这个底层技术迭代的“瓶颈期”同时也是各行各业“喘口气”沉下来理解技术在应用上真正机会的“窗口期”。接下来的信心也将来源于此。

认定AI落地和进步需要应用驱动的百度，也在通过实际的成果尝试给行业分享更明确的预期。在百度世界大会上，李彦宏在演讲过程中在大屏上展示了文心智能体平台的TOP100智能体。这些应用的分发量、平均对话轮次、用户喜爱度等指标都令人印象深刻，涵盖了多个行业，包括智能客服、内容创作、数据分析等多个领域。

这些都是在实际解决问题，能让人看到实在用处的AI应用。相比于不少人天天讨论的“超级应用”，这些千行百业的应用大规模出现，可能是“超级应用”的另一种路线。

此次，目前，百度智能云已经在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用、文心大模型日均调用量超过15亿次。

有人曾比喻，今天的大模型技术，事实上到了这样一个阶段——巨龙已经被造出，接下来就看谁能更好驾驭它。百度的应用驱动，就是要给各行各业的人们提供更好地驾驭巨龙的可能。

而在这个应用百花齐放的过程里，技术的周期会继续前进。今天AI撞上的墙，很大程度来自于数据的枯竭，而像是iRAG这样的技术，与今天越来越长尾的应用相结合，其实会在更多真实的物理世界的场景里产生新的行业落地数据，它们在模型的推理阶段被收集，再反哺回模型的训练阶段。应用的繁荣最终会促进模型能力的下一次进化。

也许有一天一个 “预测未来”级别的Sora会真正出现，而今天竭尽全力把AI技术转化为各种落地应用的公司，可能反而会在这个接地气的探索中，更早触碰到通往未来的可能。

点个“在看”，再走吧

http://mp.weixin.qq.com/s?__biz=MzkyNjU2ODM2NQ==&mid=2247603056&idx=1&sn=8bad59b27c87c15275d41df26135edda

硅星人Pro

硅（Si）是创造未来的基础，欢迎来到这个星球。

最新文章

一家中国公司，凭什么敢说自己是真正的“物理世界模拟器”？

对话清华章明星、月之暗面许欣然：Mooncake架构背后，如何用“炒菜”的思路实现推理的极致优化

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

京东的逆势增长，其实没什么秘密

硅谷活动｜与Ray-Ban Meta产品经理、K Scale联创深入交流，讨论AI与硬件的一切

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

Sora到底发布不发布，这事可能并不重要了

硅谷活动预告：来硅星人线下Meet up！探讨AI机器人与可穿戴设备未来

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

所有AI应用的尽头，是MBTI？

看着这个 AI 奶奶把骗子耍得团团转，可把我高兴坏了

Apple Silicon 才是苹果在AI上的“一盘大棋”

对话Hugging Face王铁震和零一林旅强：中国开源如何更好地被“看见”

杨植麟：最关心Kimi用户留存，无它

AI的风早已吹到小红书

大模型公司们创业未半，技术主心骨们却先弃船回大厂了？

B站盈利了，但市场最愿看到新方式

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

钉钉就是想做AI时代的那个“超级有用”

AI Agent：从学术概念到增长驱动工具

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

对话李彦宏：大模型进化变慢是好事，百度从来没对标过OpenAI

稳坐新势力前三后，朱江明却说现在做增程已经没有太大必要了

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

自动漂移、用LLM和扩散模型“折腾”机器人…顶会CoRL上最佳论文都在研究啥

Vast 创始人&CEO宋亚宸：让每个人都能生成独一无二的3D模型

天工开万物：大模型时代的具身智能新纪元

品牌解不了的流量困局，中小商家怎么解？

荣耀Magic7 Pro上手AI：它能完成自动驾驶，你也可随时接管

从C.ai出走的用户，在Kindroid AI开启“第二春”

李开复为什么这么忙

中国电动车刷赛道往事

曾经不可一世的星巴克，已经成了国产品牌们的垫脚石

AI产品榜·网站榜 10 月｜全球前 20 都在狂飙增长，增长破万“卷”！

当微软无法靠OpenAI猛拉云业务，Google Cloud“趁虚而入”了

百度智能云黄锋：从企业视角如何运用大模型应用开发平台

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力

如何让token更聪明的流动｜对话硅基流动袁进辉和清程极智汤雄超

大电池小油箱，宁德增混电池的电化学奇思妙想

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

腾讯开源“最大”大模型：如果你也相信MoE，那咱们就是好朋友

讲座预告 | AI热潮下的冷思考：从诺奖突破到AI能力边界的探讨

手机秒拍动画大片，高级运镜效果惊人！Runway两弹更新，火得一塌糊涂

智谱AI COO 张帆：榨干端侧的每一分算力，做极致调优，让AI在硬件上非常能打

为了在AI时代做好“AI助手”，vivo做了哪些努力？

2024 国内 AI 应用花 24.5 亿，搞出 3 个月活 1000 万产品 | AI产品榜·应用榜 2024年10月

对话赵纯想：AI终让我能单枪匹马，自古颠覆大公司的都是我们

Meta 的智能眼镜，除了不太智能，哪儿哪儿都挺好

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

百万人投喂2000万，只为看一个“美食up主”？B站这是有了自己的《十三邀》啊

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉