20 多家端到端自动驾驶企业/研究机构方案盘点(1)tesla、小鹏汽车、零一汽车

文摘   2024-11-14 10:44   中国香港  
点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入
作为一个初学者,文章难免出错,如有问题欢迎各位大佬们在文末留言“大刀砍改”,有感兴趣的企业也欢迎文末留言,希望本系列可以给相关从业人员一个参考。如果喜欢本系列,欢迎点赞收藏,欢迎持续关注~


目前端到端算法形成三大落地形式:将多个神经网络拼接形成端到端算法(显式端到端);多模态基础模型+自动驾驶(隐式端到端);大语言模型+自动驾驶。接下来我们将开启盘点之旅~

01
Tesla FSD V12

特斯拉的端到端架构是自动驾驶领域的一个典型应用。在 CVPR2023 研讨会上,特斯拉首次展示其在 BEV 领域的端到端规划架构,如下图所示:

图4 特斯拉在 BEV 领域的端到端规划架构
2024 年,Tesla FSD V12(FSD v12.1.2)开始正式向用户推送,将城市街道驾驶堆栈升级为端到端神经网络。FSD V12 端到端采用的是深度神经网络,通过摄像头采集驾驶场景的信息,将其作为深度卷积神经网络模型的输入,再不断对网络模型进行训练,得到学习好的网络参数,从而对智能车方向盘转角进行预测。该版本取代了 30 多万行 C++ 代码,经过数百万个视频训练,通过神经网络处理复杂驾驶环境和长尾问题。该网络模型的优势在于整体优化和数据驱动,其训练投入巨大,将训练算力提高到 100E。

//级联式端到端神经网络(Cascade End-to-End Neural Network)是一种深度学习技术,可用于处理复杂的多层次结构和处理困难的数据问题,级联式端到端神经网络中使用的神经网络能够连接不同的神经网络层,从而实现对原始数据的分析和理解。

//世界模型(World Model)是一种新兴的人工智能技术,也是端到端学习的一种应用。其概念在于构建出一种通用的数学模型,用于描述和模拟现实世界中的物理、生物、经济等不同领域的现象。这种模型能够通过大量标记数据的学习,深入理解自然语言、物理原理以及因果关系,并在一定程度上弥补错误理解场景中的问题。此外,特斯拉正在研究和应用这种模型,通过端到端神经网络技术将其应用于自动驾驶系统,并提高其对世界的理解和识别能力。
图5 特斯拉端到端最终架构
Tesla 从当前架构过渡到端到端深度学习系统,过渡的关键是将规划器改造为完全使用深度学习,并使用联合损失函数进行训练。过渡后的系统将采用端到端学习,消除手动规则和代码,并允许模型在未知场景中更好地泛化。

图6 端到端过渡

端到端大模型对海量驾驶视频片段压缩,类比于大语言模型的生成式 GPT,将互联网级别的数据压缩到了端到端神经网络的参数里,实现了驾驶知识的高效储存和应用全栈神经网络化的 FSD 是软件 2.0 时代的产物,完全基于数据驱动。训练数据的质量和规模成为决定端到端神经网络性能表现的关键因素。端到端架构的核心是数据,数据上,特斯拉拥有几百万辆车的数据量,影子模式在驾驶员干预后触发自动上传视频给云端进行训练,修正权重,不断迭代更新FSD软件。车端大数据和云端的算力相互配合,这种优势是其他玩家不具备的。
特斯拉创始人马斯克首次展示 FSD V12 时有一个关键内容:V12 消除了 30 万行C++代码,V12 中是纯粹的神经网络,实现了输入光子、输出执行命令的完全端(感知)到端(执行)。
02
小鹏汽车 XNet+XPlanner+XBrain
2024 年小鹏汽车 520 AI Day 上,小鹏汽车发布了国内首个量产上车的端到端大模型:感知神经网络 XNet + 规控大模型 XPlanner + 大语言模型 XBrain。XNet 可以让自动驾驶系统如同裸眼 3D,XPlanner 可以让驾驶策略不断拟人进化,XBrain 可以让自动驾驶系统拥有人类大脑般的理解学习能力。

图7 小鹏汽车端到端架构 

小鹏汽车的端到端架构是两段式架构。小鹏之前智驾系统的规则是十万(行代码)级规模,最新发布的端到端大模型能够实现 10 亿行代码才能达到的性能天花板,甚至更强。同时 XNGP 的端到端系统内,仍有部分的规则代码作为安全兜底。

从结构来看,小鹏的端到端架构仍分为感知、规控两大功能模块,其中最大的变化应该在于将过去基本完全由规则组成的规控模块,切换为神经网络为主。具体来说:

  • XNet:三网合一的深度视觉感知神经网络。XNet 侧重于感知和语义,实现了动、静态BEV网络和占用网络的三网合一,其中占用网络的空间网格超 200 万个。小鹏官方表示,其网格精度为业内最高精度的 2 倍以上。三网合一后,XNet 的感知范围提升 2 倍,达到 1.8 个足球场大小,对悬挂路牌、井盖、掉落纸箱等非标准障碍物识别能力提升至 50+。

  • XPlanner:基于神经网络的规划大模型-就像人类的小脑。通过海量数据时刻训练,使得驾驶策略不断向拟人进化,拥有“老司机般的脚法”,前后顿挫减少 50%、违停卡死减少 40%、安全接管减少 60%;

  • XBrain:大语言模型。XBrain 侧重于整个大场景的认知,通过大语言模型所具备的常识能力,提升感知和规控的推理和泛化能力。可读懂任何中英文文字,掌握各种令行禁止、快慢缓急的行为指令。
对于神经网络的不可解释性问题,小鹏汽车自动驾驶中心负责人李力耘表示,在端到端的架构下,三个网络联合训练标注,形成有一个有机整体。另外,何小鹏还做出判断:“2025 年,小鹏汽车将在中国实现类 L4 级智驾体验”,并且,正在全球范围对 XNGP 端到端的能力进行测试,下一步,走向全球。
03
零一汽车
2024 年 5 月 16 日的 ZERON POINT. 零点 2024 发布会上,展示其基于大模型的端到端自动驾驶系统:整个系统使用摄像头和导航信息作为输入,经过多模态大语言模型的解码产生规控信号和逻辑推理信息,将系统复杂度降低 90%。通过模拟人类的驾驶行为与思考过程,模型仅使用视觉信息的情况下展现了非常强的泛化能力。

图9 零一汽车端到端架构部署

训练这样的一套全新的系统,涉及到海量的数据:

  • 基于一个已经训练好的语言模型,通过为它导入海量的视频数据,去让它形成对于图片和视频的理解能力。

  • 将驾驶的相关的常识注入到这个系统,让它理解我们常见的交通法规,甚至各个地方不同国家的交通法规。

  • 将驾驶的视频导入到这个模型之中,让他反复训练和预测车辆的轨迹,模仿人类的行为,并且对于正确的驾驶行为给出奖励,对于错误的驾驶行为产生惩罚。通过这样的方式让模型自己去学会如何自动开车。
零一汽车计划在 2024 年底实现端到端自动驾驶的部署上车,2025 年在商用车与乘用车平台上同时实现量产,并计划于 2026 年实现高阶自动驾驶的大规模商业化运营。

自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!


自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章