20 多家端到端自动驾驶企业/研究机构方案盘点(1)tesla、小鹏汽车、零一汽车

汽车   科技   2024-09-12 11:54   上海  

来源:ADS智库 | 首图图源:网络 | 文编:ADS智库
全文 3000+ 字,预计阅 15-20 分钟
进群交流:点此处


上一篇端到端自动驾驶的秘密(三)芯片架构变化我们简单介绍了现有芯片如何高效部署、芯片架构需要哪些创新,并盘点了 5 家可能支持/潜在支持端到端架构的芯片企业方案介绍。本篇开始我们来盘点 20 多家国内外自动驾驶企业及研究机构的端到端架构方案,以供参考。本次盘点企业众多,会拆分多篇进行盘点,排名不分先后~

端到端自动驾驶的秘密系列:(点击下方标题即可前往查看已发布文章)

(1)tesla、小鹏汽车、零一汽车端到端方案
(2)理想汽车、地平线、元戎启行端到端方案
(3)... ...
作为一个初学者,文章难免出错,如有问题欢迎各位大佬们在文末留言“大刀砍改”,有感兴趣的企业也欢迎文末留言,希望本系列可以给相关从业人员一个参考。如果喜欢本系列,欢迎点赞收藏,欢迎持续关注~


目前端到端算法形成三大落地形式:将多个神经网络拼接形成端到端算法(显式端到端);多模态基础模型+自动驾驶(隐式端到端);大语言模型+自动驾驶。接下来我们将开启盘点之旅~

01
Tesla FSD V12

特斯拉的端到端架构是自动驾驶领域的一个典型应用。在 CVPR2023 研讨会上,特斯拉首次展示其在 BEV 领域的端到端规划架构,如下图所示:

图4 特斯拉在 BEV 领域的端到端规划架构
2024 年,Tesla FSD V12(FSD v12.1.2)开始正式向用户推送,将城市街道驾驶堆栈升级为端到端神经网络。FSD V12 端到端采用的是深度神经网络,通过摄像头采集驾驶场景的信息,将其作为深度卷积神经网络模型的输入,再不断对网络模型进行训练,得到学习好的网络参数,从而对智能车方向盘转角进行预测。该版本取代了 30 多万行 C++ 代码,经过数百万个视频训练,通过神经网络处理复杂驾驶环境和长尾问题。该网络模型的优势在于整体优化和数据驱动,其训练投入巨大,将训练算力提高到 100E。

//级联式端到端神经网络(Cascade End-to-End Neural Network)是一种深度学习技术,可用于处理复杂的多层次结构和处理困难的数据问题,级联式端到端神经网络中使用的神经网络能够连接不同的神经网络层,从而实现对原始数据的分析和理解。

//世界模型(World Model)是一种新兴的人工智能技术,也是端到端学习的一种应用。其概念在于构建出一种通用的数学模型,用于描述和模拟现实世界中的物理、生物、经济等不同领域的现象。这种模型能够通过大量标记数据的学习,深入理解自然语言、物理原理以及因果关系,并在一定程度上弥补错误理解场景中的问题。此外,特斯拉正在研究和应用这种模型,通过端到端神经网络技术将其应用于自动驾驶系统,并提高其对世界的理解和识别能力。
图5 特斯拉端到端最终架构
Tesla 从当前架构过渡到端到端深度学习系统,过渡的关键是将规划器改造为完全使用深度学习,并使用联合损失函数进行训练。过渡后的系统将采用端到端学习,消除手动规则和代码,并允许模型在未知场景中更好地泛化。

图6 端到端过渡

端到端大模型对海量驾驶视频片段压缩,类比于大语言模型的生成式 GPT,将互联网级别的数据压缩到了端到端神经网络的参数里,实现了驾驶知识的高效储存和应用全栈神经网络化的 FSD 是软件 2.0 时代的产物,完全基于数据驱动。训练数据的质量和规模成为决定端到端神经网络性能表现的关键因素。端到端架构的核心是数据,数据上,特斯拉拥有几百万辆车的数据量,影子模式在驾驶员干预后触发自动上传视频给云端进行训练,修正权重,不断迭代更新FSD软件。车端大数据和云端的算力相互配合,这种优势是其他玩家不具备的。
特斯拉创始人马斯克首次展示 FSD V12 时有一个关键内容:V12 消除了 30 万行C++代码,V12 中是纯粹的神经网络,实现了输入光子、输出执行命令的完全端(感知)到端(执行)。
02
小鹏汽车 XNet+XPlanner+XBrain
2024 年小鹏汽车 520 AI Day 上,小鹏汽车发布了国内首个量产上车的端到端大模型:感知神经网络 XNet + 规控大模型 XPlanner + 大语言模型 XBrain。XNet 可以让自动驾驶系统如同裸眼 3D,XPlanner 可以让驾驶策略不断拟人进化,XBrain 可以让自动驾驶系统拥有人类大脑般的理解学习能力。

图7 小鹏汽车端到端架构 

小鹏汽车的端到端架构是两段式架构。小鹏之前智驾系统的规则是十万(行代码)级规模,最新发布的端到端大模型能够实现 10 亿行代码才能达到的性能天花板,甚至更强。同时 XNGP 的端到端系统内,仍有部分的规则代码作为安全兜底。

从结构来看,小鹏的端到端架构仍分为感知、规控两大功能模块,其中最大的变化应该在于将过去基本完全由规则组成的规控模块,切换为神经网络为主。具体来说:

  • XNet:三网合一的深度视觉感知神经网络。XNet 侧重于感知和语义,实现了动、静态BEV网络和占用网络的三网合一,其中占用网络的空间网格超 200 万个。小鹏官方表示,其网格精度为业内最高精度的 2 倍以上。三网合一后,XNet 的感知范围提升 2 倍,达到 1.8 个足球场大小,对悬挂路牌、井盖、掉落纸箱等非标准障碍物识别能力提升至 50+。

  • XPlanner:基于神经网络的规划大模型-就像人类的小脑。通过海量数据时刻训练,使得驾驶策略不断向拟人进化,拥有“老司机般的脚法”,前后顿挫减少 50%、违停卡死减少 40%、安全接管减少 60%;

  • XBrain:大语言模型。XBrain 侧重于整个大场景的认知,通过大语言模型所具备的常识能力,提升感知和规控的推理和泛化能力。可读懂任何中英文文字,掌握各种令行禁止、快慢缓急的行为指令。
对于神经网络的不可解释性问题,小鹏汽车自动驾驶中心负责人李力耘表示,在端到端的架构下,三个网络联合训练标注,形成有一个有机整体。另外,何小鹏还做出判断:“2025 年,小鹏汽车将在中国实现类 L4 级智驾体验”,并且,正在全球范围对 XNGP 端到端的能力进行测试,下一步,走向全球。
03
零一汽车
2024 年 5 月 16 日的 ZERON POINT. 零点 2024 发布会上,展示其基于大模型的端到端自动驾驶系统:整个系统使用摄像头和导航信息作为输入,经过多模态大语言模型的解码产生规控信号和逻辑推理信息,将系统复杂度降低 90%。通过模拟人类的驾驶行为与思考过程,模型仅使用视觉信息的情况下展现了非常强的泛化能力。

图9 零一汽车端到端架构部署

训练这样的一套全新的系统,涉及到海量的数据:

  • 基于一个已经训练好的语言模型,通过为它导入海量的视频数据,去让它形成对于图片和视频的理解能力。

  • 将驾驶的相关的常识注入到这个系统,让它理解我们常见的交通法规,甚至各个地方不同国家的交通法规。

  • 将驾驶的视频导入到这个模型之中,让他反复训练和预测车辆的轨迹,模仿人类的行为,并且对于正确的驾驶行为给出奖励,对于错误的驾驶行为产生惩罚。通过这样的方式让模型自己去学会如何自动开车。
零一汽车计划在 2024 年底实现端到端自动驾驶的部署上车,2025 年在商用车与乘用车平台上同时实现量产,并计划于 2026 年实现高阶自动驾驶的大规模商业化运营。








































正文END








































本篇内容就到这里,下篇我们盘点理想汽车、地平线、元戎启行端到端方案~

Tips:本文章参考及引用内容均来自公开网络,参考及引用内容将在最后的完整版文章内附上~

自动驾驶技术交流群👇,欢迎扫码加入

公号👇发消息“我来了”,可直接领取“10G+自动驾驶相关资料”


联 系 & 声 明

进交流群

号主六耳

知识星球

声明:除文内特殊声明外,本公众号内所有文章编写或转载的目的仅用于学习和交流,不予以商用,不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有,凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳( 微信号:adas_miao ),本号将及时处理。


转发、点赞、在看
,安排一下?

ADS智库
聚焦 ADAS \x26amp; ADS 相关内容,公号发消息『我来了』免费领取 10G+ 自动驾驶资料
 最新文章