端到端自动驾驶技术需要高算力资源、大量深度学习研发人员投入,在全球范围内的主要玩家如下:
1、主机厂
1.1特斯拉
特斯拉FSDv12 的优秀表现,是端到端自动驾驶这一技术路线快速形成大范围共识的最重要的推动力;而在此之前,从来没有一个自动驾驶产品可以让从业者和用户如此便捷地感受到技术带来的体验提升。
2024 年3 月,特斯拉开始在北美地区大范围推送FSD v12,舆论对其性能的正面评价占据了主流。许多用户表示,特斯拉FSD v12 在施工路段、无保护左转、拥挤的环岛以及为后方车辆挪动空间时表现优异。
数据来自Tesla FSD Tracker
由第三方网站 FSD Tracker 统计的特斯拉车辆接管里程数据也表明了FSD v12 的巨大性能提升。在此前很长一段时间,FSD 的版本迭代处于瓶颈期,自2022 年初FSD v10 更新以来,其接管里程数据保持在稳态波动,行业普遍认为这是传统架构的工程优化陷入瓶颈的表现;但FSD v12 更新后,较之此前版本,用户完全无接管的行程次数占比从47% 提升到了72%,平均接管里程(Miles Per Intervention, MPI)从116 英里提高到了333 英里,性能的大幅提升代表着端到端技术突破了原有的技术瓶颈,推动自动驾驶系统的能力再上台阶。作为自动驾驶行业最重要的标杆企业之一,特斯拉的技术路线一直备受关注。从Elon Musk 在2023 年5 月首次公开提出“ 特斯拉FSD v12 是一个端到端AI”,到2024 年3 月特斯拉开始大范围推送v12,特斯拉端到端技术不断演进和成熟的过程,也是中国自动驾驶行业逐渐凝聚共识的过程。很多业内专家表示,公司下决心投入端到端自动驾驶,与特斯拉的进展密不可分。
1.2 理想
2024年7月5日,理想汽车发布了行业首个基于端到端模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构。
1.3 小鹏
小鹏汽车的端到端架构是两段式架构。小鹏之前智驾系统的规则是十万(行代码)级规模,最新发布的端到端大模型能够实现10亿行代码才能达到的性能天花板,甚至更强。同时XNGP的端到端系统内,仍有部分的规则代码作为安全兜底。
此次小鹏量产上车的端到端大模型包括:感知神经网络XNet+规控大模型XPlanner+大语言模型XBrain。
从结构来看,小鹏的端到端架构仍分为感知、规控两大功能模块,其中最大的变化应该在于将过去基本完全由规则组成的规控模块,切换为神经网络为主。其中XNet:侧重于感知和语义,实现了动、静态BEV网络和占用网络的三网合一,其中占用网络的空间网格超200万个。小鹏官方表示,其网格精度为业内最高精度的2倍以上。三网合一后,XNet的感知范围提升2倍,达到1.8个足球场大小,对悬挂路牌、井盖、掉落纸箱等非标准障碍物识别能力提升至50+。XPlanner:通过模型取代代码后,规控表现将更加拟人,前后顿挫减少50%、违停卡死减少40%、安全接管减少60%;XBrain:XBrain 侧重于整个大场景的认知,通过大语言模型所具备的常识能力,提升感知和规控的推理和泛化能力。可读懂任何中英文文字,掌握各种令行禁止、快慢缓急的行为指令。
对于神经网络的不可解释性问题,小鹏汽车自动驾驶中心负责人李力耘表示,在端到端的架构下,三个网络联合训练标注,形成有一个有机整体。
2、科技公司
2.1Wayve
英国自动驾驶初创公司Wayve在当地时间2024年5月7日表示,已完成10.5亿美元的融资。其中软银集团(SoftBank Group)、英伟达(NVIDIA)和微软(Microsoft)参与了Wayve的C轮融资。
GAIA-1的学习表征能力捕获了对未来事件的预测,结合其生成真实样本的能力,增强和加速了自动驾驶技术的训练。GAIA-1允许视频、文本和动作作为提示来生成多样化和逼真的驾驶场景。Wayve通过在真实世界的英国城市驾驶数据的大型语料库上进行训练GAIA-1,其学会理解和理清重要的概念,如静态和动态元素,包括汽车、公共汽车、行人、骑自行车的人、道路布局、建筑物,甚至交通灯。此外,它还通过动作和语言条件反射提供了对自我车辆行为和其他场景特征的细粒度控制。下图是GAIA-1多模态视频生成。
Wayve的训练数据集包含 2019-2023年间在英国伦敦收集的4,700小时、25Hz的专有驾驶数据。这对应于大约4.2亿张独特图像,这是一个海量的图片数据,但对视频数据而言还是微不足道。但Wayve的智驾方案核心在于它可以自己生成海量的近似人工标注的视频数据且成本极低,这些数据可以模拟各种近乎真实的场景,然后用这些数据进行端到端训练。
虽然Tesla的影子模式也可以获得海量的低成本近似于人工标注的视频数据,但实际上并非如此,马斯克在最近的访谈也称所谓影子模式拿到的图像(不是视频)有用的不到万分之一。
2.2 华为
2024 年4 月24 日,华为智能汽车解决方案发布会上,华为发布了以智能驾驶为核心的全新智能汽车解决方案品牌—— 乾崑,并发布了并发布了ADS 3.0。乾崑ADS 3.0 的技术架构,感知部分采用GOD(General Object Detection,通用障碍物识别)的大感知网络,决策规划部分采用PDP(Prediction-Decision-Planning, 预测决策规控)网络实现预决策和规划一张网。华为乾崑ADS3.0端到端是基于少量人工规则+端到端模型,并逐渐减少人工规则的数量。
乾崑ADS3.0主要包括GOD和PDP。华为的ADS是从感知BEV(鸟瞰图)网络开始的,可识别白名单障碍物;2023年4月发布最新的ADS3.0,引入GOD(通用障碍物检测)和PCR(道路拓扑推理)网络,现在开始进入场景理解阶段,构成了GOD大网。
GOD(通用障碍物识别)大网:乾崑ADS3.0基于GOD大网,实现了从简单的“识别障碍物”到深度的“理解驾驶场景”的跨越式进步。这不仅提升了智能驾驶的安全性,还改善了驾乘体验。
PDP(预测决策规控)网络:乾崑ADS3.0的全新架构采用PDP网络,实现了预决策和规划一张网。这使得决策和规划更加类人化,行驶轨迹更接近人类驾驶,通行效率更高。复杂路口通过率超过96%。
2.3百度
2024年5月15日,百度Apollo发布了支持L4级自动驾驶的大模型ApolloADFM(AutonomousDrivingFoundationModel)。百度的端到端架构属于两段式端到端,感知和决策规划有两段网络,后续通过隐形传递和联合训练实现端到端无人驾驶。
在感知端,通过摄像头得到视觉图像数据,并通过激光雷达和4D毫米波雷达得到主动光传感器数据。之后利用感知网络对视觉和主动光特征进行识别,融合BEV特征判断道路特征、障碍物等。再通过显式三维向量空间(使用三维坐标系来精确地表示物体的位置和方向)和隐式BEV特征(在BEV视角下,不直接给出三维空间中的所有信息,而是通过一些间接的方式,如特征编码或者深度学习模型来隐式地表示和推断这些信息),以联合训练的方式实现端到端无人驾驶。
2.3 地平线
地平线早在2016 年便率先提出了自动驾驶端到端的演进理念,并持续取得技术创新与突破:在2022 年提出行业领先的自动驾驶感知端到端算法Sparse4D; 同时,地平线积累了基于交互博弈的端到端深度学习算法,大幅提升智驾系统在复杂交通环境中的通过率、安全性和舒适度。在硬件技术上,地平线专为大参数Transformer 而生的新一代智能计算架构BPU 纳什,能够以高度的软硬协同打造业界领先的计算效率,为自动驾驶端到端和交互博弈提供智能计算最优解。
2.4英伟达
作为AI 生态赋能者,英伟达可以提供从芯片、工具链到智驾解决方案的全栈产品,将AI 领域最前端的技术赋能至智驾。2023 年夏季,吴新宙加盟英伟达成为汽车业务负责人。此后,英伟达加大对智驾业务的投入,强化英伟达对于自身全栈软硬件方案提供商的定义。
2024 北京车展前夕, 吴新宙展示了英伟达自动驾驶业务从L2 到L3 的发展规划,其中提到规划的第二步为“ 在L2++ 系统上达成新突破,LLM(LargeLanguage Model,大语言模型)和VLM(Visual Language Model,视觉语言模型)大模型上车,实现端到端的自动驾驶”。吴新宙认为,端到端是自动驾驶的最终一步,接下来几年端到端模型和原有模型会在自动驾驶中相辅相成,端到端模型提供更拟人且灵活的处理,而原来的模型和方法则可以保证安全性。
2.5商汤
2024年4月25日,商汤绝影在北京车展发布面向量产的端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)。商汤的端到端架构实现了感知到规划,而国内其他很多厂商说的是感知到融合。
搭载UniAD端到端自动驾驶解决方案的车辆仅凭摄像头的视觉感知,无需高精地图,通过数据学习和驱动就可以像人一样观察并理解外部环境,然后基于足够丰富的感知信息,UniAD能够自己思考并作出决策,例如进行无保护左转、快速通行人车混行的红绿灯路口、完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作。
UniAD的核心是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化,不需要对感知数据进行抽象和逐级传递,,将原始信息直接输入到端到端模型中,然后以自车轨迹规划为准进行指令输出,实现端到端自动驾驶。UniAD的具体优点如下:
首先,传统智驾方案和“两段式”端到端方案都是依靠人为定义的规则在传递显性信息,存在信息误差和丢失,难以完整准确还原外部场景,而一体化端到端自动驾驶大模型最明显的优势就在于信息的无损传递,端到端模型基于原始信息进行学习、思考和推理,最终能像人一样综合理解复杂的交通环境,并且能够不断成长,有着更高的能力上限。
其次,依赖数据驱动的端到端方案能够将其学到的驾驶能力和技巧迁移泛化到其他场景当中,具备更快的迭代效率,帮助车企更快速实现全国都能开的目标,无论是城区还是乡村道路。
最后,端到端自动驾驶大模型是像人一样感知和理解外部环境,纯视觉和无高精地图就是UniAD与生俱来的天赋,它只需要导航信息就可以把车驾驶到目的地,天然就能帮助车企降低软硬件成本。
Tesla的FSDV12等一体化端到端方案是基于一个不可解耦的模型打造,UniAD是将多个模块整合到一个端到端模型架构之下,仍可以对各个模块进行分别的监测和优化,相较于纯黑盒的端到端技术,UniAD方案具有更强的可解释性、安全性与持续迭代性。
2.6 鉴智机器人
在2024 北京车展期间,鉴智机器人联合创始人、CTO 都大龙表示,鉴智机器人原创的自动驾驶端到端模型GraphAD 已经可量产部署,并正与头部车企进行联合开发。在主流端到端开环规划评测上,GraphAD 在各项任务上均达到领域最佳性能,规划任务上拟合误差和避障指标更是远超此前的最佳方案。
谈及端到端自动驾驶,都大龙说:“ 之所以将端到端范式称为GraphAD,是因为鉴智使用了图形结构来显示建模目标,包括动态和静态障碍物之间的关系—— 这使得端到端模型训练起来更容易也进一步减少对数据量的需求。” 都大龙指出,如果只使用积累下来的专用数据,是无法做到快速上车的,而鉴智目前在做的,是将端到端与世界模型相结合。构建生成式的仿真模型,使得Agent 不断与仿真模型交互,以此将世界的规律和人类的知识迁移到Agent 里。“ 我们将真实世界的信息模拟压缩成一个生成式模型,同时要不断对其进行几个层面的优化:真实度、可控度以及可交互度。其中,交互要无限逼近现实感。”
3、开源实验室
3.1 上海人工智能实验室
上海人工智能实验室近年来为自动驾驶技术的发展做出了很大的贡献。
2022 年,上海人工智能实验室开源了 BEVFormer 架构,时至今日依然是自动驾驶行业内最通用的视觉感知算法架构。2023 年6 月,上海人工智能实验室、武汉大学及商汤科技联合提出的端到端自动驾驶算法 UniAD,获得 CVPR 2023最佳论文,是近十年来计算机视觉顶级会议中第一篇以中国学术机构作为第一单位的最佳论文。受到 BEVFormer 和 UniAD 的启发,自动驾驶行业在BEV 感知、端到端自动驾驶方面的研究大大加速。
近半年来,上海人工智能实验室还推出利用大语言模型进行闭环端到端自动驾驶的工作LMDrive、自动驾驶视频生成模型GenAD 等,上海人工智能实验室从多个技术维度对自动驾驶技术进行探索,从而多方位提升其智能性。
同时,上海人工智能实验室还主导了DriveLM(语言+ 自动驾驶数据集)、GenAD(驾驶视频数据集)、OpenLane(车道线数据集)、OpenScene(3D 占用空间预测数据集)多个自动驾驶开源数据集建设,主办了 CVPR 2023 自动驾驶挑战赛、CVPR 2024 自动驾驶挑战赛,对自动驾驶研究生态的发展起到重要推动作用。
3.2 清华大学MARS Lab
清华大学MARS Lab 由前Waymo 科学家赵行成立和主导。2021 年初, MARS Lab 提出了视觉为中心的自动驾驶框架VCAD,发表了一系列BEV 和端到端自动驾驶的基石研究论文和工作:首个基于Transformer 的视觉BEV 检测模型DETR3D、首个视觉BEV 3D 物体跟踪模型MUTR3D、首个基于Transformer的多传感器前融合3D 物体检测模型FUTR3D、首个端到端轨迹预测模型ViP3D、首个3D 占用网络的评测基准数据集Occ3D 等。
MARS Lab 也是最早发表“ 无图” 自动驾驶方案的团队:2021 年初,发布首个在线高精度地图模型HDMapNet;2022 年初,发布首个矢量高精度地图模型VectorMapNet;2023 年初,开创性地提出了基于众包的先验神经网络的地图模型,
实现了自动驾驶地图的记忆、更新、感知一体化。该系列工作为行业指明了技术落地方向,其中合作企业理想汽车将相关技术在其新能源车产品中进行了广泛应用落地。
近期,MARS Lab 提出了自动驾驶快慢双系统DriveVLM-Dual,一套基于大模型的可落地的自动驾驶方案。DriveVLM-Dual 将大模型和传统自动驾驶方案有机结合,大幅提升了大模型的空间理解能力,并且规避了大模型的推理速度问题。