20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

汽车科技 2024-09-12 11:54 上海

来源:ADS智库 | 首图图源:网络 | 文编:ADS智库

全文 3000+ 字，预计阅读 15-20 分钟

上一篇（端到端自动驾驶的秘密（三）芯片架构变化）我们简单介绍了现有芯片如何高效部署、芯片架构需要哪些创新，并盘点了 5 家可能支持/潜在支持端到端架构的芯片企业方案介绍。本篇开始我们来盘点 20 多家国内外自动驾驶企业及研究机构的端到端架构方案，以供参考。本次盘点企业众多，会拆分多篇进行盘点，排名不分先后~

端到端自动驾驶的秘密系列：（点击下方标题即可前往查看已发布文章）

（一）导读篇：《端到端自动驾驶的秘密》文章目录（已发布）
（二）概述：端到端概念、端到端发展历程、端到端原理、端到端特点、端到端与传统架构的对比分析以及端到端面临的挑战。（已发布）
（三）芯片架构变化：现有芯片如何高效部署、芯片架构需要哪些创新、可能支持/潜在支持端到端架构的芯片企业方案介绍。（已发布）
（四）20 多个端到端自动驾驶企业/研究机构方案盘点

（1）tesla、小鹏汽车、零一汽车端到端方案

（2）理想汽车、地平线、元戎启行端到端方案

（3）... ...

作为一个初学者，文章难免出错，如有问题欢迎各位大佬们在文末留言“大刀砍改”，有感兴趣的企业也欢迎文末留言，希望本系列可以给相关从业人员一个参考。如果喜欢本系列，欢迎点赞收藏，欢迎持续关注~

目前端到端算法形成三大落地形式：将多个神经网络拼接形成端到端算法（显式端到端）；多模态基础模型+自动驾驶（隐式端到端）；大语言模型+自动驾驶。接下来我们将开启盘点之旅~

Tesla FSD V12

特斯拉的端到端架构是自动驾驶领域的一个典型应用。在 CVPR2023 研讨会上，特斯拉首次展示其在 BEV 领域的端到端规划架构，如下图所示：

图4 特斯拉在 BEV 领域的端到端规划架构

2024 年，Tesla FSD V12（FSD v12.1.2）开始正式向用户推送，将城市街道驾驶堆栈升级为端到端神经网络。FSD V12 端到端采用的是深度神经网络，通过摄像头采集驾驶场景的信息，将其作为深度卷积神经网络模型的输入，再不断对网络模型进行训练，得到学习好的网络参数，从而对智能车方向盘转角进行预测。该版本取代了 30 多万行 C++ 代码，经过数百万个视频训练，通过神经网络处理复杂驾驶环境和长尾问题。该网络模型的优势在于整体优化和数据驱动，其训练投入巨大，将训练算力提高到 100E。

//级联式端到端神经网络（Cascade End-to-End Neural Network）是一种深度学习技术，可用于处理复杂的多层次结构和处理困难的数据问题，级联式端到端神经网络中使用的神经网络能够连接不同的神经网络层，从而实现对原始数据的分析和理解。

//世界模型（World Model）是一种新兴的人工智能技术，也是端到端学习的一种应用。其概念在于构建出一种通用的数学模型，用于描述和模拟现实世界中的物理、生物、经济等不同领域的现象。这种模型能够通过大量标记数据的学习，深入理解自然语言、物理原理以及因果关系，并在一定程度上弥补错误理解场景中的问题。此外，特斯拉正在研究和应用这种模型，通过端到端神经网络技术将其应用于自动驾驶系统，并提高其对世界的理解和识别能力。

图5 特斯拉端到端最终架构

Tesla 从当前架构过渡到端到端深度学习系统，过渡的关键是将规划器改造为完全使用深度学习，并使用联合损失函数进行训练。过渡后的系统将采用端到端学习，消除手动规则和代码，并允许模型在未知场景中更好地泛化。

图6 端到端过渡

端到端大模型对海量驾驶视频片段压缩，类比于大语言模型的生成式 GPT，将互联网级别的数据压缩到了端到端神经网络的参数里，实现了驾驶知识的高效储存和应用全栈神经网络化的 FSD 是软件 2.0 时代的产物，完全基于数据驱动。训练数据的质量和规模成为决定端到端神经网络性能表现的关键因素。端到端架构的核心是数据，数据上，特斯拉拥有几百万辆车的数据量，影子模式在驾驶员干预后触发自动上传视频给云端进行训练，修正权重，不断迭代更新FSD软件。车端大数据和云端的算力相互配合，这种优势是其他玩家不具备的。

特斯拉创始人马斯克首次展示 FSD V12 时有一个关键内容：V12 消除了 30 万行C++代码，V12 中是纯粹的神经网络，实现了输入光子、输出执行命令的完全端（感知）到端（执行）。

小鹏汽车 XNet+XPlanner+XBrain

2024 年小鹏汽车 520 AI Day 上，小鹏汽车发布了国内首个量产上车的端到端大模型：感知神经网络 XNet + 规控大模型 XPlanner + 大语言模型 XBrain。XNet 可以让自动驾驶系统如同裸眼 3D，XPlanner 可以让驾驶策略不断拟人进化，XBrain 可以让自动驾驶系统拥有人类大脑般的理解学习能力。

图7 小鹏汽车端到端架构

小鹏汽车的端到端架构是两段式架构。小鹏之前智驾系统的规则是十万（行代码）级规模，最新发布的端到端大模型能够实现 10 亿行代码才能达到的性能天花板，甚至更强。同时 XNGP 的端到端系统内，仍有部分的规则代码作为安全兜底。

从结构来看，小鹏的端到端架构仍分为感知、规控两大功能模块，其中最大的变化应该在于将过去基本完全由规则组成的规控模块，切换为神经网络为主。具体来说：

XNet：三网合一的深度视觉感知神经网络。XNet 侧重于感知和语义，实现了动、静态BEV网络和占用网络的三网合一，其中占用网络的空间网格超 200 万个。小鹏官方表示，其网格精度为业内最高精度的 2 倍以上。三网合一后，XNet 的感知范围提升 2 倍，达到 1.8 个足球场大小，对悬挂路牌、井盖、掉落纸箱等非标准障碍物识别能力提升至 50+。
XPlanner：基于神经网络的规划大模型-就像人类的小脑。通过海量数据时刻训练，使得驾驶策略不断向拟人进化，拥有“老司机般的脚法”，前后顿挫减少 50%、违停卡死减少 40%、安全接管减少 60%；
XBrain：大语言模型。XBrain 侧重于整个大场景的认知，通过大语言模型所具备的常识能力，提升感知和规控的推理和泛化能力。可读懂任何中英文文字，掌握各种令行禁止、快慢缓急的行为指令。

对于神经网络的不可解释性问题，小鹏汽车自动驾驶中心负责人李力耘表示，在端到端的架构下，三个网络联合训练标注，形成有一个有机整体。另外，何小鹏还做出判断：“2025 年，小鹏汽车将在中国实现类 L4 级智驾体验”，并且，正在全球范围对 XNGP 端到端的能力进行测试，下一步，走向全球。

零一汽车

2024 年 5 月 16 日的 ZERON POINT. 零点 2024 发布会上，展示其基于大模型的端到端自动驾驶系统：整个系统使用摄像头和导航信息作为输入，经过多模态大语言模型的解码产生规控信号和逻辑推理信息，将系统复杂度降低 90%。通过模拟人类的驾驶行为与思考过程，模型仅使用视觉信息的情况下展现了非常强的泛化能力。

图9 零一汽车端到端架构部署

训练这样的一套全新的系统，涉及到海量的数据：

基于一个已经训练好的语言模型，通过为它导入海量的视频数据，去让它形成对于图片和视频的理解能力。
将驾驶的相关的常识注入到这个系统，让它理解我们常见的交通法规，甚至各个地方不同国家的交通法规。
将驾驶的视频导入到这个模型之中，让他反复训练和预测车辆的轨迹，模仿人类的行为，并且对于正确的驾驶行为给出奖励，对于错误的驾驶行为产生惩罚。通过这样的方式让模型自己去学会如何自动开车。

零一汽车计划在 2024 年底实现端到端自动驾驶的部署上车，2025 年在商用车与乘用车平台上同时实现量产，并计划于 2026 年实现高阶自动驾驶的大规模商业化运营。

正文END

本篇内容就到这里，下篇我们盘点理想汽车、地平线、元戎启行端到端方案~

Tips：本文章参考及引用内容均来自公开网络，参考及引用内容将在最后的完整版文章内附上~

自动驾驶技术交流群👇，欢迎扫码加入

公号👇发消息“我来了”，可直接领取“10G+自动驾驶相关资料”

联系 & 声明

进交流群

号主六耳

知识星球

声明：除文内特殊声明外，本公众号内所有文章编写或转载的目的仅用于学习和交流，不予以商用，不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有，凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳（微信号：adas_miao ），本号将及时处理。

转发、点赞、在看

，安排一下？

http://mp.weixin.qq.com/s?__biz=Mzg5OTA2MDA0MA==&mid=2247518798&idx=1&sn=4d77c052d854003ea80fb1ac9fa9c540

ADS智库

聚焦 ADAS \x26amp; ADS 相关内容，公号发消息『我来了』免费领取 10G+ 自动驾驶资料

最新文章

技术趋势 | 2025年度中国汽车十大技术趋势发布，多项智驾技术入选

主控拆解 | 小米汽车智驾/智能座舱控制器

关于端到端，地平线丢出一关键招数

端到端的另一种声音：听一听 Mobileye CEO 的观点

Kalman Filter For Dummies

倒计时2天｜2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即！

近万字干货 | C-NCAP 2024 ADAS 主动安全导读与分析【建议收藏】

一图看懂｜GB/T 44461 智能网联汽车组合驾驶辅助系统技术要求及试验方法

端到端对传统的自动驾驶算法开发影响有多大？

大盘点 | 自动驾驶中的规划控制概述

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

PlanKD：压缩的端到端自动驾驶运动规划器的第一个知识蒸馏框架（CVPR 2024）

20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

24 年 8 月国内自动驾驶领域中标项目一览

自动驾驶三大主流芯片架构分析

端到端自动驾驶的秘密（三）5 家可能支持/潜在支持端到端架构的芯片企业方案介绍

【预告】2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即，报名通道已开启！

端到端自动驾驶的秘密（二）概述

自动驾驶哪些技术必须掌握？

从定点到SOP，汽车零部件开发的关键节点解析

端到端自动驾驶的秘密（一）导读篇

自动驾驶哪些技术必须掌握？

自动驾驶域控制器的来龙去脉（2024版）：L3、大模型、还是舱驾一体？

说人话版 GB_T 34590，看完带你入门功能安全

线上直播注册 | 2024 MathWorks 中国汽车年会

冠军方案详解 | CVPR 2024 全球自动驾驶挑战赛浪潮信息 F-OCC 方案实践

干货 | 详解芯片内部各个电路结构

E-NCAP 2024 高速公路和城际辅助系统-测试评估规则介绍

1.5 万多字 Robotaxi 产业详解

从 ECU 系统视角理解 CAN 通讯需求

智驾激光雷达新趋势

中国科学院大学：通过隐式世界模型增强端到端自动驾驶

干货 | 2 万字综述多模态大型语言模型（MLLM）

2024 年车载摄像头趋势

功能安全实例：LKA，ACC

域控拆解 | 上汽智己 ICC 智算域控制器设计方案

地平线 VADv2：通过概率规划实现矢量化端到端自动驾驶

干货 | 一份相机标定指南

清华等：端到端自动驾驶系统的关键技术与发展趋势

清华 && 地平线 SparseDrive：重新定义端到端自动驾驶任务设计，所有任务都超过 SOTA 的方法！

小鹏理想华为等多家公司都推出端到端方案了，后面的岗位都会倾向于这个方向吗？

对端到端的系统架构闭环的思考

30 多家国内车企背后庞大的汽车供应链盘点！建议收藏~

Delphi：更适合端到端模型的 world model，更长更真更可控！（理想汽车&西湖大学）

NOA 智驾背后的关键运作奥秘被这本书讲透了

24 年 5 月国内自动驾驶领域中标项目一览

李想是真懂自动驾驶细节

功能安全入门 | SoC 设计漫谈

智能车『智商测试体检表』

初探自动驾驶 SOC 芯片设计流程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉