目前端到端算法形成三大落地形式:将多个神经网络拼接形成端到端算法(显式端到端);多模态基础模型+自动驾驶(隐式端到端);大语言模型+自动驾驶。接下来我们将开启盘点之旅~
特斯拉的端到端架构是自动驾驶领域的一个典型应用。在 CVPR2023 研讨会上,特斯拉首次展示其在 BEV 领域的端到端规划架构,如下图所示:
//级联式端到端神经网络(Cascade End-to-End Neural Network)是一种深度学习技术,可用于处理复杂的多层次结构和处理困难的数据问题,级联式端到端神经网络中使用的神经网络能够连接不同的神经网络层,从而实现对原始数据的分析和理解。
图6 端到端过渡
图7 小鹏汽车端到端架构
从结构来看,小鹏的端到端架构仍分为感知、规控两大功能模块,其中最大的变化应该在于将过去基本完全由规则组成的规控模块,切换为神经网络为主。具体来说:
XNet:三网合一的深度视觉感知神经网络。XNet 侧重于感知和语义,实现了动、静态BEV网络和占用网络的三网合一,其中占用网络的空间网格超 200 万个。小鹏官方表示,其网格精度为业内最高精度的 2 倍以上。三网合一后,XNet 的感知范围提升 2 倍,达到 1.8 个足球场大小,对悬挂路牌、井盖、掉落纸箱等非标准障碍物识别能力提升至 50+。
XPlanner:基于神经网络的规划大模型-就像人类的小脑。通过海量数据时刻训练,使得驾驶策略不断向拟人进化,拥有“老司机般的脚法”,前后顿挫减少 50%、违停卡死减少 40%、安全接管减少 60%;
XBrain:大语言模型。XBrain 侧重于整个大场景的认知,通过大语言模型所具备的常识能力,提升感知和规控的推理和泛化能力。可读懂任何中英文文字,掌握各种令行禁止、快慢缓急的行为指令。
图9 零一汽车端到端架构部署
训练这样的一套全新的系统,涉及到海量的数据:
基于一个已经训练好的语言模型,通过为它导入海量的视频数据,去让它形成对于图片和视频的理解能力。
将驾驶的相关的常识注入到这个系统,让它理解我们常见的交通法规,甚至各个地方不同国家的交通法规。
将驾驶的视频导入到这个模型之中,让他反复训练和预测车辆的轨迹,模仿人类的行为,并且对于正确的驾驶行为给出奖励,对于错误的驾驶行为产生惩罚。通过这样的方式让模型自己去学会如何自动开车。
自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧