世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

科技 2024-12-14 09:00 北京

本文来自PRO会员通讯内容，文末关注「机器之心PRO会员」，查看更多专题解读。

从 BEV 感知的纯视觉路线，到重感知、轻地图的「无图化」趋势，再到今年年中，推崇的「端到端」技术路线，这一年各家车企们的大体智驾技术方向几乎相差无几。

尽管「端到端」的技术思路大幅削减传统模块化方案中的手写代码的局限性，及信息传输中存在的延迟和数据缺失问题。但业内有观点认为，端到端的本质仅是拟合现有数据，并没有给出某些智能逻辑，因此模型的能力受到数据的表现限制。数据驱动的端到端只能实现 L3，要通往 L4，则需要引入基于知识驱动的世界模型。

01. 「端到端」模型上车概念的热潮下，世界模型才是通往 L4 的关键？

为什么说世界模型是通往 L4 级别的关键？

02.世界模型如何在智驾系统中发挥作用？解决了哪些问题？

与端到端大模型相比，区别是什么？解决什么难题？在实际落地应用中，世界模型在智驾系统中的哪些部分起具体作用？

03. 哪些车企押注看好世界模型？

有哪些车企在方案中引入了世界模型？思路上有何异同？

01 「端到端」模型上车概念的热潮下，世界模型才是通往 L4 的关键？

1、近日，小米继 SU7 之后，又官宣了其 YU7 车型，迅速引发了关注。在「蔚小理」的国内新势力车企格局之下，华为作为高阶智驾市场方案提供商的第一梯队，与闯入造车新势力的小米，共同形成了「蔚小理华米」的格局。

2、从 BEV 感知的纯视觉路线，到重感知、轻地图的「无图化」趋势，再到今年年中，推崇的「端到端」技术路线，这一年各家车企们的大体智驾技术方向几乎相差无几。

① 今年，各家新势力的车企在高阶智驾的路线方向主要集中在「端到端」大模型上车。接近年末，各家车企将「端到端」的思路进一步宣传为消费者更能感知的「车位到车位」的概念。小鹏汽车在今年 11 月的广州车展上，发布了全新的「车位到车位」智驾方案。理想、蔚来等其他车企也陆续推出相关定位的产品。

3、随着技术的进一步发展和成熟，各家车企正在从 L2 到 L3、甚至 L4 级别迈进。尽管「端到端」的技术思路大幅削减传统模块化方案中的手写代码的局限性，及信息传输中存在的延迟和数据缺失问题。但业内有观点认为，端到端的本质仅是拟合现有数据，并没有给出某些智能逻辑，因此模型的能力受到数据的表现限制。数据驱动的端到端只能实现 L3，要通往 L4，需要引入基于知识驱动的世界模型。

02 世界模型如何在智驾系统中发挥作用？解决了哪些问题？

1、自动驾驶领域的「生成式世界模型」的概念最早来自 CVPR2023 自动驾驶的研讨会，特斯拉和 Wayve 两家的介绍。[1]

① 特斯拉介绍其「世界模型」，可以在云端生成用于模型训练和仿真的驾驶场景，同时还可以压缩部署到车端；

② Wayve 发布了名为「GAIA-1」的生成式世界模型，能够同时输入视频、文本和动作来生成真实的驾驶场景，同时提供对自车行为和场景特征的细粒度控制。GAIA-1 学习到的强表征能力包括高级结构和场景动态、情境意识、概括和理解几何信息等，能够理解并再现世界的规则和行为。该模型将世界建模视为序列建模问题，通过把输入转化为离散的 tokens，预测序列中的下一个 token。[2]

2、现有的自动驾驶系统在面对非结构化的复杂现实世界场景时仍充满挑战，关键问题在于有效地预测各种可能出现的潜在情况以及车辆随着周围世界的演化而采取的动作。世界模型在自动驾驶中的应用可以简单分为两部分，即理解世界和预测未来。[3]

① 世界模型需要实时的感知道路条件，并准确预测其变化。具体来说，世界模型通过感知模块（摄像头、雷达、激光雷达等）收集的图像、视频和点云数据来理解世界，执行物体检测和地图分割，然后将感知的环境信息投影到几何空间，由此构建对周围环境的隐式表示，进一步进行决策；

② 接着，世界模型预测模块在这些几何空间内运作，预测周围环境的未来状态，包括交通参与者的轨迹和运动等，对于车辆的预测和规划至关重要。

③ 世界模型通过提供一个统一的框架来处理感知、预测和规划，使得自动驾驶系统能够更有效地理解和响应复杂的交通环境。这种集成的方法有助于减少信息丢失，提高决策的准确性，并最终提升自动驾驶系统的性能。

3、世界模型在自动驾驶中的整合，主要集中在场景生成、规划与控制机制方面。

① 传统的传感器仿真方法，如 NeRF 与 3DGS，主要依赖于训练数据分布，若训练数据不足，则这些方法在复杂驾驶操作（例如变道、加速或减速）的重建效果不佳。自动驾驶世界模型作为数据生成引擎，通过学习真实世界的驾驶数据分布，来生成多样化和逼真的驾驶场景视频，不依赖于人工标注的数据，可以为自动驾驶系统提供丰富的训练数据，使自主系统具备在稀有和复杂驾驶场景中导航的稳健性。例如，GAIA-1 和 DriveDreamer 模型。

② 除了场景生成外，世界模型在预测、规划中的应用较多，世界模型通过实时预测道路环境的变化，来规划最佳行驶路径。例如中科院自动化所提出的自动驾驶世界模型「Drive-WM」，通过多视角和时间建模，共同生成多个视角的帧，然后从相邻视角预测中间视角，显著提高多个视角之间的一致性。同时，与端到端的自动驾驶规划器相结合，利用生成的视频来微调规划器，从 OOD 数据中进行学习，使得规划器在面对这样的场景时可以拥有更好的性能。[4]

3、目前，世界模型在实际车企中的落地应用，主要生成数据和提高决策安全性两个方面。通过引入了世界模型以重建+生产的方式来生成模拟数据，为自动驾驶系统能力的学习和测试创造虚拟环境；另一是通过将驾驶视频作为输入，生成更长时间的预测视频，为智能驾驶系统提供预测和决策支持，提高系统的稳定性及决策的安全性。

4、业内有一种观点认为，世界模型成为像 GPT 一样的自动驾驶领域的基础模型，而其他自动驾驶具体任务都会围绕这个基础模型进行研发构建。而不仅仅是被当作一种仿真工具来生成仿真数据......

关注👇🏻「机器之心PRO会员」，前往「收件箱」查看完整解读

👀 往期回顾 👀

01 AI 竞赛进入推理阶段：扩展测试时计算是万能的吗？Scaling What 成为关键

传统的 Scaling Laws 范式是否已经达到极限？新的 Scaling Laws 范式能否解决数据难题？只要扩展测试时间计算，就能够实现通用人工智能吗？「LLM + 推理模型」是否能实现类人智能？LLM 真的具有推理能力吗？...

02 谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

具身智能创企融资规模如何？明星「练习生」都有哪些头部资源支持？各家创企技术路径有何差异？「练习生」都有哪些技术储备？具身智能还差些什么？...

03 「压缩即智能」，成就 LLM 的 Transformer 未必是终极解？

知识压缩理论已经获得验证了？LLM 范式有变革征兆了？LLM 范式会向哪个方向演进？为什么Transformer 未必能够长青？有哪些声音在质疑Transformer？有哪些非Transformer的可行路线？...

04 从文本到屏幕：「Project Jarvis」们能实现 AGI 吗？

头部 AI 公司为何都在做 AI 自主计算机操控？这事可行吗？和RPA的区别是什么？AI Agent自主操控计算机需要具备哪些能力？微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同？...

更多往期专题解读内容，关注「机器之心PRO会员」服务号，点击菜单栏「收件箱」查看。

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？