目前,尚不清楚特斯拉端到端模型的具体结构(可能全行业都在等下一个TESLA AI day ^_^ ),有推测表示,特斯拉端到端有可能采用生成式AI模型。自动驾驶任务可以抽象为“生成自车的未来轨迹”,与生成式模型的原理非常类似。在特斯拉FSD V11的算法架构中,已经在Lanes network模型中部分应用了类似的思路:将来自视觉模块和地图模块的所有信息进行编码,类似于语言模型中单词token,再以序列自回归的方式预测节点的位置、属性以及连接关系。资料来源:特斯拉AI Day,国投证券研究中心在2023年CVPR上,特斯拉也展示了对于世界模型的探索:构建向量空间的世界模型特征,所有的智能驾驶任务都可以通过插入任务头来实现。资料来源:2023CVPR,国投证券研究中心
DriveVLM-Dual的架构如下:图片来源:《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》车端模型分为两个系统:1)系统1:端到端模型,负责快速响应。理想端到端模型的进化路线是:“模块化”→“Two Model端到端”(预计2024年完成)→“One Model端到端”。(在论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》中,基于nuScense数据集进行验证时,系统1采用了VAD模型)
在CVPR2024上,奔驰和图宾根大学、埃斯林根应用科学大学,共同提出了DualAD端到端架构(论文:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》)。DualAD是一个基于Transformer的模块化框架,用于端到端优化的自动驾驶。DualAD主要是在BEVFormer和UniAD上加以改进,参数量也接近。DualAD提出了一种双流方法,该方法结合了以物体为中心的表示法来利用动态代理的潜力,以及使用BEV网格表示法来表示静态场景元素。图片来源:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》DualAD包含一个基于转换器解码器的感知架构,该架构使用两个流来以对象为中心的方式显式建模动态对象,并以基于网格的方式建模静态场景元素。由此产生的动态和静态世界表示使得与驾驶相关的各种任务成为可能,如3D对象检测和跟踪、地图分割、运动预测以及规划。图片来源:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》通过动态-静态交叉注意力块,使得两个流之间的交互得以实现:图片来源:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》
2024年5月15日,百度发布了支持L4级自动驾驶的大模型Apollo ADFM(Autonomous Driving Foundation Model),通过隐式传递、联合训练实现端到端无人驾驶;
图片来源:百度
10
鉴智机器人
2024年4月,鉴智机器人表示,其原创的自动驾驶端到端模型GraphAD,已经可量产部署,并正与头部车企进行联合开发。和吉利联合发表论文:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》。
1. 模型架构
GraphAD将图模型思想引入motion和planning等任务中,对驾驶环境中的动静态交互性元素进行显性建模,使得模型能够更直接、快速的捕捉相关性信息,从而显著提升学习效率和性能。同时,通过对模型推理的极致工程优化,实现了GraphAD端到端自动驾驶基于量产芯片的实时部署与运行。GraphAD的网络架构:图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》
2. 验证结果
鉴智使用世界模型构建生成式的仿真模型,用于训练端到端模型。
在主流端到端开环规划评测上,GraphAD的拟合误差和避障指标均实现了不错的成绩。
图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》
图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》
图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》
2015年,comma.ai成立于美国。2017年,comma.ai通过手机的后置摄像头和手机计算芯片(骁龙系列),以及comma.ai研发的Openpilot自动驾驶软件,实现了性能优异的L2级自动驾驶,2020年曾被ConsumerReport评为性能最佳的辅助驾驶系统,超越特斯拉Autopilot和凯迪拉克SuperCruise。图片来源:《consumer-reports-active-driving-assistance-systems-november-16-2020》Openpilot与多达200余种车型的适配性,为L2级辅助驾驶的大规模推广提供了一种后装的解决思路。图片来源:OpenPilot2020年后,OpenPilot逐渐转向端到端神经网络模型,被认为是第一个大规模商业化的端到端自动驾驶产品。Openpilot架构如下:图片来源:《Level 2 Autonomous Driving on a Single Device:Diving into the Devils of Openpilot》系统的核心是Supercombo端到端神经网络模型,架构如下:图片来源:《Level 2 Autonomous Driving on a Single Device:Diving into the Devils of Openpilot》OpenPilot是一个开源项目,通过开源和社区驱动,上海AI Lab曾深度解析了Supercombo模型(见:https://zhuanlan.zhihu.com/p/497686355)。
地平线和清华大学合作研究,提出了SparseDrive模型(论文:《SparseDrive:End-to-End Autonomous Driving via Sparse Scene Representation》),SparseDrive总体框架如图所示。图片来源:《SparseDrive:End-to-End Autonomous Driving via Sparse Scene Representation》
通过这些设计,SparseDrive 在所有任务的性能上都大大超越了以前的最先进方法,同时实现了更高的训练和推理效率。其中,使用nuScenes数据集,验证运动预测和规划的结果如下,SparseDrive以较大优势超越了之前的方法。图片来源:《SparseDrive:End-to-End Autonomous Driving via Sparse Scene Representation》
3. VAD
地平线和华中科技大学合作研究,提出了VAD模型,先后发表两篇论文(《VAD:Vectorized Scene Representation for Efficient Autonomous Driving》和《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》)。
VAD在nuScenes开环验证和CARLA闭环验证中,均取得了state-of-the-art的规划性能。除此之外,相比之前的方案,大幅提升了模型的推理速度。nuScenes开环规划性能:图片来源:《VAD:Vectorized Scene Representation for Efficient Autonomous Driving》CARLA闭环规划性能:图片来源:《VAD:Vectorized Scene Representation for Efficient Autonomous Driving》
2)VADv2
VADv1初步探索了基于矢量化场景表征的端到端自动驾驶算法框架。在VADv1的基础上,VADv2基于概率性规划,以数据驱动的范式从大量驾驶数据中学习端到端驾驶策略。VADv2算法框架:图片来源:《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》VADv2以车载相机采集的流式图像序列作为输入。鉴于图像信息稀疏性,VADv2将图像信息转换为具有高层语义信息的tokens。由于在连续的动作空间上学习概率分布较为困难,VADv2将动作空间离散化,通过最远轨迹采样的方式从真实的轨迹数据中筛选出N条轨迹构建轨迹集合,用于表征整个动作空间。在CARLA仿真器上闭环规划性能(Town05 Long):图片来源:《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》CARLA闭环规划性能(Town05 Short):图片来源:《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》更多闭环验证的可视化结果可以参考项目主页(https://hgao-cv.github.io/VADv2)。
Wayve先后推出了大型语言模型LINGO-1/2,视觉生成模型GAIA-1,以及专为高级自动驾驶仿真训练和测试而设计的PRISM-1。图片来源:甲子光年2018年9月,Wayve发表论文:Learning to Drive in a Day。Wayve展示了其自动驾驶系统在短时间内学习驾驶的能力。与DAVE-2主要基于CNN的模仿学习方法不同,Wayve结合了强化学习和深度学习算法。Wayve基于强化学习的端到端神经网络:
DriveDreamer架构:图片来源:《DriveDreamer:Towards Real-world-driven World Models for Autonomous Driving》目前,基于DriveDreamer的产品与方案已经在多个主机厂和自动驾驶科技公司实现定点落地。基于DriveDreamer的GFM,以及Giga Studio和Giga World:
MARS Lab多模态学习实验室,是清华大学交叉信息院下的交叉学科人工智能实验室,由前Waymo科学家赵行教授组建和指导。MARS Lab尝试解决一系列探索性的AI问题,并且一直在寻找新的挑战。 MARS Lab研究如何让机器像人一样的能够通过多种感知输入进行学习、推理和交互,研究涵盖了多模态学习的基础问题及其应用:(1)多媒体计算, (2)自动驾驶, (3)机器人, (4)多传感器。