目前业内尚未就“端到端”的准确概念达成统一认识。一般而言,“端到端”自动驾驶是指,控制系统读取原始传感器的数据输入,仅通过神经网络直接计算出控制指令,而其中不包含任何人为设计的规则模块。“端到端”架构和传统的模块化架构的对比如下:图片来源:《Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey》
2024年5月15日,百度发布了支持L4级自动驾驶的大模型Apollo ADFM(Autonomous Driving Foundation Model),通过隐式传递、联合训练实现端到端无人驾驶;
图片来源:百度
4. 大语言模型
大语言模型(LLM)广泛学习人类世界知识,具有较强的认知水平。在学术界,大语言模型用作自动驾驶的方案如雨后春笋般涌现。例如GPT-Driver、Language MPC、DrivelikeaHuman、DriveLM、DriveGPT4等等。 港大和华为诺亚实验室等发表了DriveGPT4模型,它是一个使用LLM的可解释的“端到端”自动驾驶系统,通过将视频、语音提示、控制信号Token化之后送入大语言模型,语言模型生成对人类问题的相应回答以及控制信号,再经过编码等步骤还原成为文字和控制信息,即可对车辆实现控制。图片来源:《DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model》(ZhenhuaXu等)零一汽车发布基于LLM的端到端自动驾驶系统架构:
理想汽车提出了快系统和慢系统结合的方案,其中,“端到端”模型作为系统1(快系统),可以迅速的进行控制决策,而大语言模型作为系统2(慢系统),可以进行深度思考,理解环境信息,识别Corner Case。图片来源:理想汽车2024年5月20日,小鹏汽车发布端到端大模型,有三个组成部分:感知大模型XNet+规控大模型XPlanner+大语言模型XBrain。小鹏汽车在发布会上表示,端到端大模型上车后,18个月内小鹏智能驾驶能力将提高30倍,每2天内部将做一次智驾模型的迭代。三个模型的协作分工关系如下:图片来源:小鹏汽车,甲子光年英伟达认为,大语言模型可以作为导航规划器,或者监视器来处理复杂场景。图片来源:英伟达GTC大会《Revolutionizing AV Development With Foundation Models》当遇到带有停止标志(Stop sign)的广告牌场景时,大语言模型很好的识别了广告牌上的停止标志,避免了幽灵刹车情况的出现。图片来源:英伟达GTC大会《Revolutionizing AV Development With Foundation Models》
6. 世界模型:可能的终极形态
世界模型或许是自动驾驶“端到端”模型的终极形态。当前神经网络和人类的差距在于,神经网络的预测结果是概率输出,知其然而不知其所以然。著名的反OpenAI人工智能专家杨乐昆认为,現有的LLM尽管在自然语言处理、对话交互、文本创作等领域表现出色,但其仍只是一种“统计建模”技术。通过学习数据中的统计规律来完成相关任务,本质上并非具备真正的“理解”和“推理”能力。而人类可以通过观察、以及通过无监督的方式,进行交互来学习,积累大量关于物理世界如何运行的常识,这些常识告诉人类什么是合理的、什么是不可能的,因此人类可以通过很少的试验,就可以学习新技能,预测自身行为的后果。 所谓世界模型,就是希望神经网络可以具备“理解”和“推理”能力,模型能够自己习得因果关系和世界运行的知识,具备理解周围环境以及交互情况的能力,从而预测其他道路交通的参与者的行为,进而恰当地规划自己的行为。世界模型是可以真正理解环境的模型。 汽车自身包含的诸多传感器(例如视觉、激光雷达、毫米波雷达、IMU等等),这些传感器成为天然的多模态数据收集器,能够让模型很好的“体验”到三维世界、加速度、重力等元素,理解环境的变化,并与环境进行交互。图片来源:《World Models for Autonomous Driving: An Initial Survey》目前世界模型主要用于生成视频训练数据,未来,世界模型可以成为自动驾驶One Model类型的“端到端”大模型。 极佳科技和清华大学联合推出了DriveDreamer,模型采用注意力机制和Diffusion模型构建。DriveDreamer集成了多模态的输入数据,如文本、视频、高精度地图、3D检测框、驾驶行为等,可以实现可控的驾驶视频生成和预测未来的驾驶行为。同时DriveDreamer还可以与驾驶场景互动,根据输入的驾驶动作,预测不同的未来驾驶视频。图片来源:《DriveDreamer:Towards Real-world-driven World Models for Autonomous Driving》在2024年7月,蔚来发表了世界模型NWM,用于“端到端”自动驾驶:
实车采集数据的成本较高,部分复杂场景甚至危险场景难以采集,长尾场景稀缺,同时3D标注的成本高昂,因此AI合成数据成为颇具前景的发展方向。AI生成数据可以大大提升长尾场景的数据规模:图片来源:英伟达GTC大会《How LLMs and Generative AI will Enhance the Way We Experience Self-Driving Cars》目前,AI合成数据主要有三种路线:
目前,“端到端”模型还处于开发的早期阶段,其上限高,同时下限也低。“端到端”架构和传统架构的上限和下限的发展示意图如下:笔者认为,“端到端”模型在车上落地会分为三个阶段:1)第一阶段:“端到端”模型的下限会低于行车安全限值,仅依靠“端到端”模型会带来安全风险。此时“端到端”模型需要以影子模式运行,或者和传统模型同时运行,传统模型负责安全兜底(负责什么行为不能做),“端到端”模型负责探索性能上限(负责什么行为可以做)。该阶段中,“端到端”模型主要以隐式连接的“Two Model”方案为主。2)第二阶段:“端到端”模型的下限高于行车安全限值,但是仍然低于传统模型。该阶段中,传统模型比重逐步降低,兜底策略逐渐减少。该阶段中,“端到端”模型已经有“One Model”方案应用,随着数据量的累积,算法性能不断提升。3)第三阶段:“端到端”模型的上限和下限均高于传统模型,该阶段中,传统模型彻底取消,自动驾驶仅依靠“端到端”模型,实现彻底的数据驱动。不过,在冗余度要求较高的L3/L4系统中,两种系统仍然有可能共存,互为备份冗余。 英伟达提出的端到端模型的落地方案和技术栈的发展路径:图片来源:英伟达GTC大会《Accelerating the Shift to AI-Defined Vehicles》、开源证券研究所图片来源:英伟达