雪岭 · 20个重点“端到端”玩家——1.7万字方案简介(2/2)

科技   科技   2024-08-11 12:37   上海  
数据来源:2024年7月30日小鹏汽车AI智驾技术发布会,制图:雪岭飞花
2024年7月30日,小鹏汽车在AI智驾技术发布会上提到,AI的颠覆力量,会带来4大全新方向:芯片、大模型、无人驾驶、机器人。
自动驾驶本质上是自主行驶的机器人,会同时用到AI芯片和大模型。自动驾驶是人工智能技术落地的最大应用场景,其数据规模、触达人群、以及对于社会变革的影响力,远超其他方向
而端到端又是自动驾驶目前最先进的前沿技术。

接上一篇文章《雪岭 · 可能的自动驾驶终极解决方案——“端到端”开发体系概览(1/2)》本文继续介绍目前重点玩家的“端到端”方案。

主要包括:

  1. 主机厂:特斯拉、理想、小鹏、蔚来、奔驰、零一汽车等;
  2. 自动驾驶方案商:商汤绝影、华为、百度、鉴智机器人、元戎启行、Momenta、comma.ai等;
  3. 芯片/模型公司:地平线、英伟达、Wavye、极佳科技、光轮智能等;
  4. 实验室:上海AI Lab、清华大学MARS Lab等;



—主机厂—

01

特斯拉

1. 发展历程

特斯拉自动驾驶的发展历程,从FSD v12开始全面进入“端到端”架构:
数据来源:盖世汽车,汽车之心,东吴证券研究所绘制
各阶段软件栈示意图:
数据来源:汽车之心,东吴证券研究所绘制
特斯拉“端到端”的重要节点:
资料来源:《埃隆马斯克传》,Planning-orientedAutonomousDriving,Twitter,新浪财经,华鑫证券研究
2024年7月,特斯拉最新版本的FSD 12.5已经在美国市场上市,很多用户对其评价颇高。FSD V12.5的参数量是V12.4的五倍,可以实现高速和一般道路的算法统一。
图片来源:网络
马斯克表示,FSD将在发布v12.6后进入中国、欧洲和其他国家。

2. 特斯拉端到端模型架构

目前,尚不清楚特斯拉端到端模型的具体结构(可能全行业都在等下一个TESLA AI day ^_^ ),有推测表示,特斯拉端到端有可能采用生成式AI模型。
自动驾驶任务可以抽象为“生成自车的未来轨迹”,与生成式模型的原理非常类似。在特斯拉FSD V11的算法架构中,已经在Lanes network模型中部分应用了类似的思路:将来自视觉模块和地图模块的所有信息进行编码,类似于语言模型中单词token,再以序列自回归的方式预测节点的位置、属性以及连接关系。
资料来源:特斯拉AI Day,国投证券研究中心
在2023年CVPR上,特斯拉也展示了对于世界模型的探索:构建向量空间的世界模型特征,所有的智能驾驶任务都可以通过插入任务头来实现。
资料来源:2023CVPR,国投证券研究中心

3. 算力储备

根据特斯拉2024Q1的财报电话会议,预计到2024年底,云端算力会提升到85~100EFLOPS。
资料来源:特斯拉AIDay,马斯克直播,特斯拉业绩会等,国投证券研究中心
算力的提升,使得FSD的迭代速度显著加快,每个新版本都带来性能的大幅提升。
特斯拉FSD从V12版本推出到V12.3共推出7个迭代的衍生版本,花费了近4个月时间。而从V12.3到V12.3.6推出的8次版本迭代所花费的时间,仅有1个半月左右

4. 数据

特斯拉用户带来的FSD的累计行驶里程数,正在加速增长。
资料来源:TeslaAIX

02

理想

2024年2月,理想汽车和清华大学MARS-LAB合作提出了DriveVLM端到端大模型,发表论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

1. 技术框架

理想在车端采用“端到端模型+大视觉模型(VLM)”架构(即DriveVLM-Dual),在云端采用生成式的验证系统(世界模型),进行模型的训练和验证。整体技术框架如下:
资料来源:理想汽车

2. 车端模型架构

DriveVLM-Dual的架构如下:
图片来源:《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》
车端模型分为两个系统:
1)系统1:端到端模型,负责快速响应。理想端到端模型的进化路线是:“模块化”→“Two Model端到端”(预计2024年完成)→“One Model端到端”。(在论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》中,基于nuScense数据集进行验证时,系统1采用了VAD模型)

图片来源:理想汽车(为了更好的可视化效果,笔者将原图颜色做了调整


2)系统2:基于视觉语言模型(VLM)实现的DriveVLM,具备复杂场景的理解能力。理想汽车VLM选择了阿里的Qwen-VL。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,参数规模为96亿。Qwen-VL是支持中英文等多种语言的VLM,Qwen-VL除具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

图片来源:理想汽车(为了更好的可视化效果,笔者将原图颜色做了调整


DriveVLM主要包括场景描述、场景分析、层级规划三个主要模块设计,其中:
  1. 场景描述:实现环境描述和关键物体识别。环境描述主要是对共性的驾驶环境的描述,比如天气、时间、道路类型、车道线状况等。关键物体识别用于找出对于当前驾驶决策产生较大影响的关键物体。
  2. 场景分析:在得到驾驶场景中的关键物体后,DriveVLM对关键物体特征和其对自车潜在的驾驶影响进行分析,识别物体的静态属性、运动状态和特殊行为。
  3. 层级规划:逐渐递进地层级式规划,依次推理对应自车未来驾驶决策的元动作、决策描述、轨迹点三种规划目标。

3. 验证结果

理想在自己构建的Corner Case场景数据集SUP-AD和nuScenes开源数据集上进行了验证。
1)在SUP-AD数据集上的表现如下,相对于对比的几种大模型,DriveVLM的表现最优:

图片来源:《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》


2)在nuScenes数据集上,DriveVLM的表现没有VAD-Base好,不过DriveVLM-Dual(将VAD作为端到端模型)取得了最好的性能。可以看到,虽然DriveVLM是为了理解复杂场景所设计的,但在nuScenes这种普通场景上也同样表现出色。

图片来源:《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》


4. 实车部署

理想的DriveVLM-Dual实车部署采用了2个Orin-X,其中“端到端”模型和DriveVLM分别各自部署在一片Orin-X上,两个系统异步运行。经过优化之后,DriveVLM的平均推理时间可以达到410ms。
图片来源:清华大学MARS LAB
完整DriveVLM模型实车测试演示视频:https://www.bilibili.com/video/BV1h1421C7KQ
图片来源:https://www.bilibili.com/video/BV1h1421C7KQ

5. 组织变更

在2024.7.22有消息称,理想成立了端到端自动驾驶实体组织,团队规模约200人,公司其他成员也会对该项目进行灵活支援。据悉,该组织的研发主力隶属算法研发组,由理想智能驾驶技术研发负责人贾鹏负责。

03

小鹏

小鹏汽车对于端到端技术的潜力充满信心。
图片来源:新浪微博
图片来源:新浪微博
据2024年8月9日消息,小鹏调整了技术开发部组织架构,新架构将聚焦端到端模型。调整之后,技术开发部被拆成了三个部门,分别是 AI 端到端、AI 应用、AI 能效。其中,AI 端到端部门负责端到端模型的研发,AI 应用部门负责交付。
小鹏汽车已经准备All In端到端。

1. 模型架构

2024年5月20日,小鹏汽车宣布“端到端”大模型量产上车。
小鹏端到端技术方案由三个组成部分:感知大模型XNet、规控大模型XPlanner、大语言模型XBrain。
图片来源:小鹏汽车,甲子光年
其中,XNet和XPlanner组成“Two Model”端到端架构,通过大语言模型XBrain,提升场景深度理解和泛化能力

2. 性能提升

2024年7月30日,何小鹏在“小鹏汽车AI智驾技术发布会”上宣布,将向全球用户全量推送AI天玑系统XOS 5.2.0版本,“端到端”加持下的XNGP从“全国都能开”正式升级“全国都好用”。

AI天玑系统XOS 5.2.0版本的核心能力的提升在于“三个不”:“不限城市、不限路线、不限路况”的全国全量开放。其中,

  • “不限城市”,指的是XNGP覆盖范围扩大至全国所有城市,真正摆脱高精地图束缚,将高阶智驾引入端到端大模型时代。

  • “不限路线”,指的是XNGP可应用于国内所有公开道路,最新公测版本已经能够自动通过ETC收费站。

  • “不限路况”,指的是XNGP可适应包括调头、环岛及狭窄小路等在内的复杂路况。
小鹏汽车表示,端到端大模型上车后,18个月内小鹏智能驾驶能力将提高30倍,每2天内部将做一次智驾模型的迭代

图片来源:小鹏汽车
图片来源:小鹏汽车
小鹏预计将在2024年Q4推送能够畅通ETC、小区入口档杆、工厂内部道路等场景的智驾版本,将用户从家门口一路送到办公室大门口的“门到门”
图片来源:小鹏汽车
图片来源:小鹏汽车

3. 算力和数据

截止到2024年7月,小鹏汽车拥有了AI算力储备2.51 EFLOPS
目前,小鹏视频训练超过10亿公里,每天新增里程超过9.78万公里,实车测试超过646万公里,仿真测试里程累计达到2.16亿公里,核心模拟场景超过2.2万,专业模拟场景超过5.8万。

04

蔚来

1. 模型架构

蔚来的“端到端”技术路线是,先实现“Two Model”,然后再逐渐整合为“One Model”。
目前处在“Two Model”端到端方案,其中:
1)感知模型:采用融合化的感知网络,利用占用网络OCC 2.0识别动静态物体,采用可变分辨率的架构,解决远近物体识别的问题。感知模型通过云端大模型进行无监督训练。
图片来源:蔚来2024智能驾驶发布会
2)规控模型:采用数据驱动的分层价值网络,通过分层搜索的形式,找到最优解。具体而言,通过多模态的注意力网络,从感知数据中筛选出10-100种未来的可能性,之后通过交互搜索树,通过经人类偏好数据训练的博弈价值网络来进行未来7秒钟的推演,最后使用奖励函数网络,给出一个最安全、最舒适、最拟人化的结果。
规控模块的结果会被送入凸优化空间,进行安全确认,保证输出的结果安全。

2. 世界模型NWM

2024年7月,蔚来发表了世界模型NWM(NIO World Model),该模型用于“端到端”自动驾驶的仿真训练。
图片来源:蔚来为了更好的可视化效果,笔者将原图颜色做了调整
图片来源:蔚来

3. 算力

蔚来目前云上算力有287.1EOPS,相当于100个分布式的千卡训练集群,即10万片H100的算力规模。

4. 架构调整

2024年6月19日,有知情媒体透露,蔚来智驾研发部现已完成架构调整。
调整前,蔚来智能驾驶研发部分为感知、规控和集成等部分。调整后,感知和规控团队合并为大模型团队(由原蔚来感知团队负责人彭超负责),集成团队重组为交付团队。重组后的自动驾驶研发部则由蔚来智能驾驶研发副总裁任少卿负责。
这意味着,蔚来将放弃业界沿用多年的“感知-决策-规控”传统范式,更明确地探索用端到端大模型实现高阶智能驾驶。

05

奔驰

2024年8月1-2日,奔驰在其举办的上海研发中心科技日上,公布了全新一代自动驾驶系统最新成果:“无图”L2++全场景高阶智能驾驶,其应用“端到端”大模型,并已经在国内开启路测。
图片来源:奔驰
该系统采用端到端大模型,实现全场景高阶智能驾驶,不依赖高精地图,从出发车位泊出、途径城区/高速/城区、到目的地车位泊入,点到点的智驾能力。
图片来源:奔驰
奔驰已开启了“无图”L2++系统路测,具备应对城市复杂场景的能力,包括红绿灯识别、掉头、行人和自行车避让、无保护转弯、旁车博弈、进出环岛、上下匝道、过收费站等能力。
图片来源:奔驰

1. 模型架构

在CVPR2024上,奔驰和图宾根大学、埃斯林根应用科学大学,共同提出了DualAD端到端架构(论文:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》)。
DualAD是一个基于Transformer的模块化框架,用于端到端优化的自动驾驶。DualAD主要是在BEVFormer和UniAD上加以改进,参数量也接近。
DualAD提出了一种双流方法,该方法结合了以物体为中心的表示法来利用动态代理的潜力,以及使用BEV网格表示法来表示静态场景元素。
图片来源:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》
DualAD包含一个基于转换器解码器的感知架构,该架构使用两个流来以对象为中心的方式显式建模动态对象,并以基于网格的方式建模静态场景元素。由此产生的动态和静态世界表示使得与驾驶相关的各种任务成为可能,如3D对象检测和跟踪、地图分割、运动预测以及规划。
图片来源:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》
通过动态-静态交叉注意力块,使得两个流之间的交互得以实现:
图片来源:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》

2. 验证结果

开环规划方面,与UniAD相比,DualAD在L2距离方面达到了相当的性能,并且对于更长的规划时间范围,碰撞率降低了高达两倍。类似地,对于VAD,L2误差根据规划时间范围减少了最多0.23m(-21%)。

图片来源:《DualAD: Disentangling the Dynamic and Static World for End-to-End Driving》



06

零一汽车

零一汽车是2022年6月成立,是一家新能源重卡科技公司,发起人是前图森未来联合创始人黄泽铧,以及前三一重卡总经理、北汽福田戴姆勒副总裁张红松。
在CVPR2024自动驾驶挑战赛中,凭借纯视觉端到端自动驾驶解决方案,零一汽车得分0.8626,获得第二名
图片来源:咸宁新闻网
2024年6月9日,在上海AI Lab举办的端到端具身智能体研讨会活动中,零一汽车智能驾驶合伙人王泮渠和智能驾驶高级经理沙龙代表零一汽车出席并领奖。
图片来源:咸宁新闻网
零一汽车的端到端架构如下,其中LLM使用的是META开源大模型(Llama7B版本)
图片来源:零一汽车为了更好的可视化效果,笔者将原图颜色做了调整
2024年5月16日,零一汽车在其“零点2024”发布会上表示,零一汽车将依托零动智卡联盟和行业合作伙伴一起,推动新一代基于端到端+大模型的高阶智能驾驶解决方案量产落地
零一汽车计划于2025年实现端到端大模型上车,2026年实现运营场景落地,并在2030年左右实现高阶自动驾驶大规模商业化落地。

—方案商—

07

商汤绝影

1. UniAD

2022年底,商汤绝影和上海AI Lab、武汉大学共同发表了著名的论文:《Planning-oriented Autonomous Driving》。
论文中提出的UniAD(Unified Autonomous Driving)是行业首个感知决策一体化自动驾驶通用模型,UniAD提出了革命性的模块化端到端方案,成为这一技术路线的基准范式。
这篇论文获得了计算机顶会CVPR2023年的最佳论文奖。
图片来源:https://blog.csdn.net/CV_Autobot/article/details/129742844
UniAD模型架构:
图片来源:《Planning-oriented Autonomous Driving》

UniAD的特点如下:

  • UniAD包括四个基于Transformer解码器的感知、预测模块和一个规划器,各个模块之间通过神经网络进行连接。这些模块遵循Transformer架构的设计理念,确保高效的信息流和处理能力。

  • 并不限于特定的Transformer解码器,可以加入其他的替代方案进行感知与BEV特征提取。

  • 查询Q起到连接管道的作用,方便联合训练与交互建模。

  • 将各个任务进行层级式的结合,并对不同任务间的信息进行了充分的交互。

  • 端到端联合训练可以实现全局最优,同时保留了分模块系统的优势,可以抛出中间模块的结果进行中间过程的分析。
2024年4月,商汤绝影基于前面的研究工作,发布面向量产的端到端自动驾驶解决方案UniAD。

2. DriveAGI

商汤绝影推出多模态大模型DriveAGI,该模型利用大语言模型,理解人类意图,解决驾驶困难场景,提升系统对复杂交通环境的理解和适应能力。
通过适当的自然语言提示,DriveAGI可以对当前场景状态进行表述,并给出所应当执行的行为,或作为更高阶的决策模块,去驱动底层的控制模型去操控车辆作出具体行为。

图片来源:商汤绝影


DriveAGI模型具有较强的开放世界理解能力,例如,在十字路口有交通引协管员引导小朋友过马路,即使前方是绿灯,模型也能够清晰理解当前场景的状态。
图片来源:商汤绝影

08

华为

2024年4月24日,华为发布ADS3.0,将决策规划进行了模型化。

1. 模型架构

ADS3.0端到端采用“Two Model”方案,其中,

  • 感知部分采用GOD(General Object Detection,通用障碍物识别)网络。

  • 决策规划部分采用PDP(Prediction-Decision-Planning,预测决策规控)网络,实现预测、决策和规划功能。
图片来源:甲子光年
GOD网络具备识别白名单和异形障碍物的能力,同时能够感知道路结构和场景语义。
资料来源:华为官网
2024年8月,华为提出本能安全网络功能,该网络用于在一些极端的场景下进行安全兜底,保证驾驶员和乘客的生命安全。
图片来源:华为

2. 算力和数据

截止到2024年6月,华为云端算力为3.5EFlops。每天训练的数据量超过3000万公里,模型更新速度为每5天一次。
资料来源:2024华为智能汽车解决方案发布会

09

百度

2024年5月15日,百度发布了支持L4级自动驾驶的大模型Apollo ADFM(Autonomous Driving Foundation Model),通过隐式传递、联合训练实现端到端无人驾驶;

图片来源:百度


10

鉴智机器人

2024年4月,鉴智机器人表示,其原创的自动驾驶端到端模型GraphAD,已经可量产部署,并正与头部车企进行联合开发。和吉利联合发表论文:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》。

1. 模型架构

GraphAD将图模型思想引入motion和planning等任务中,对驾驶环境中的动静态交互性元素进行显性建模,使得模型能够更直接、快速的捕捉相关性信息,从而显著提升学习效率和性能。
同时,通过对模型推理的极致工程优化,实现了GraphAD端到端自动驾驶基于量产芯片的实时部署与运行。
GraphAD的网络架构:
图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》

2. 验证结果

鉴智使用世界模型构建生成式的仿真模型,用于训练端到端模型。

在主流端到端开环规划评测上,GraphAD的拟合误差和避障指标均实现了不错的成绩。

图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》


图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》


图片来源:《GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving》

11

元戎启行

2023年8月,元戎启行运用端到端模型完成了道路测试。
2024年4月25日,元戎启行对外展示了即将量产的高阶智驾平台DeepRouteIO,以及基于DeepRouteIO的端到端解决方案。该方案采用Orin-X,配备1颗固态激光雷达,11颗摄像头。
计划2025年,元戎启行将采用英伟达Thor芯片(基于联想自动驾驶域控制器AD1)

图片来源:联想



12

Momenta

Momenta的端到端具体架构缺少公开信息,目前还没有相关官方研究文档被发表。
在CVPR2023,Momenta曾介绍了他们的部分工作。Momenta使用在线高精地图构建来实时生成用于规划的地图,下图是Momenta的端到端规划架构:

图片来源:Momenta


Momenta称,将在2025年前完成端到端规划和完全端到端自动驾驶,软件演进规划如下:

图片来源:Momenta

在算法5.0中,Momenta并行采用了“One Model”和“Two Model”两个支路,主要原因是为了降低开发成本、提高开发效率:

  • “Two Model”模型的训练成本比较低,能够较快地去解决问题和升级功能,同时可以验证方法和数据的正确性。

  • “Two Model”模型验证过的方法和数据,在积累一段时间之后,再应用更新到“One Model”端到端大模型上,这样能够保证“One Model”端到端模型的训练效率。

13

comma.ai

2015年,comma.ai成立于美国。
2017年,comma.ai通过手机的后置摄像头和手机计算芯片(骁龙系列),以及comma.ai研发的Openpilot自动驾驶软件,实现了性能优异的L2级自动驾驶,2020年曾被ConsumerReport评为性能最佳的辅助驾驶系统,超越特斯拉Autopilot和凯迪拉克SuperCruise。
图片来源:《consumer-reports-active-driving-assistance-systems-november-16-2020》
Openpilot与多达200余种车型的适配性,为L2级辅助驾驶的大规模推广提供了一种后装的解决思路。

图片来源:OpenPilot
2020年后,OpenPilot逐渐转向端到端神经网络模型,被认为是第一个大规模商业化的端到端自动驾驶产品
Openpilot架构如下:
图片来源:《Level 2 Autonomous Driving on a Single Device:Diving into the Devils of Openpilot》
系统的核心是Supercombo端到端神经网络模型,架构如下:
图片来源:《Level 2 Autonomous Driving on a Single Device:Diving into the Devils of Openpilot》
OpenPilot是一个开源项目,通过开源和社区驱动,上海AI Lab曾深度解析了Supercombo模型(见:https://zhuanlan.zhihu.com/p/497686355)

—芯片/模型商—

14

地平线

地平线在端到端技术的研究中,发布了多个研究成果,其中包括:感知端到端算法Sparse4D,基于矢量化场景表征的端到端自动驾驶算法VAD,端到端矢量地图在线构建方法MapTR等,并且这些技术目前均已开源。
近期,地平线提出了面向量产的SuperDrive端到端自动驾驶解决方案。

1. Sparse4D

2024年1月22日,地平线将业内领先的纯视觉自动驾驶算法——Sparse4D系列算法开源,推动行业更多开发者共同参与到端到端自动驾驶、稀疏感知等前沿技术方向的探索中。
传统感知系统和端到端感知系统的对比:
图片来源:地平线
Sparse4D是迈向长时序稀疏化3D目标检测的系列算法,属于时序多视角融合感知技术的范畴。
面向稀疏化感知的行业发展趋势,Sparse4D搭建了纯稀疏的融合感知框架,让感知算法效率更高、精度更高,让感知系统更简洁。相比稠密BEV算法,Sparse4D降低了计算复杂度,打破了算力对感知范围的限制,在感知效果和推理速度上,都实现了对稠密BEV算法的超越。
在nuScenes纯视觉3D检测和3D跟踪两个榜单上,Sparse4D均位列第一,成为SOTA,领先于包括SOLOFusion、BEVFormer v2和StreamPETR在内的一众最新方法。
Sparse4D算法架构如下:
图片来源:地平线
地平线Sparse4D团队先后发表了3篇论文,接连攻克了提升稀疏算法性能、降低时序融合计算复杂度、实现端到端目标跟踪等技术难关。目前,Sparse4D已完成性能验证,在地平线征程5计算方案上实现了部署。根据规划,Sparse4D将应用于地平线下一代产品中。

2. SparseDrive

地平线和清华大学合作研究,提出了SparseDrive模型(论文:《SparseDrive:End-to-End Autonomous Driving via Sparse Scene Representation》),SparseDrive总体框架如图所示。
图片来源:《SparseDrive:End-to-End Autonomous Driving via Sparse Scene Representation》

SparseDrive由三部分组成:图像编码器、对称稀疏感知和并行运动规划器。

  • 给定多视图图像,图像编码器(包括主干网络和颈部网络),首先将图像编码为多视图多尺度特征图,在对称稀疏感知模块中,特征图被聚合成两组实例,以学习驾驶场景的稀疏表示。

  • 这两组实例分别代表周围代理和地图元素,被送入并行运动规划器与初始化的自车实例进行交互。

  • 运动规划器同时预测周围代理和自车的多模态轨迹,并通过分层规划选择策略选择安全轨迹作为最终规划结果。
通过这些设计,SparseDrive 在所有任务的性能上都大大超越了以前的最先进方法,同时实现了更高的训练和推理效率。其中,使用nuScenes数据集,验证运动预测和规划的结果如下,SparseDrive以较大优势超越了之前的方法。
图片来源:《SparseDrive:End-to-End Autonomous Driving via Sparse Scene Representation》

3. VAD

地平线和华中科技大学合作研究,提出了VAD模型,先后发表两篇论文(《VAD:Vectorized Scene Representation for Efficient Autonomous Driving》和《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》)。

1)VADv1

VADv1是基于矢量场景表征的端到端自动驾驶。相较于UniAD,VAD摒弃了传统技术栈中的栅格化表征,对整个驾驶场景进行矢量化建模,并利用矢量环境信息对自车规划轨迹进行约束。相比于之前的方案,VAD在规划性能和推理速度上具有明显的优势。
矢量化场景表征:


图片来源:地平线
与UniAD一样,VAD的各个子模块都是基于统一的Transformer结构,模型框架如下:
图片来源:《VAD:Vectorized Scene Representation for Efficient Autonomous Driving》

其中:

  • BEV Encoder用于编码输入的环视图像,并将其转化为鸟瞰图视角(BEV)下的特征图;

  • Vectorzied Motion Transformer提取场景中的动态目标信息,实现动态目标检测和矢量化的轨迹预测;

  • Vectorzied Map Transformer提取场景中矢量化的静态元素信息(静态地图,如车道线,路沿和人行道);

  • Planning Transformer以隐式的动静态场景特征作为输入,提取其中与驾驶决策规划相关的信息,并完成自动驾驶车辆的轨迹规划。

VAD在nuScenes开环验证和CARLA闭环验证中,均取得了state-of-the-art的规划性能。除此之外,相比之前的方案,大幅提升了模型的推理速度。
nuScenes开环规划性能:
图片来源:《VAD:Vectorized Scene Representation for Efficient Autonomous Driving》
CARLA闭环规划性能:
图片来源:《VAD:Vectorized Scene Representation for Efficient Autonomous Driving》

2)VADv2

VADv1初步探索了基于矢量化场景表征的端到端自动驾驶算法框架。在VADv1的基础上,VADv2基于概率性规划,以数据驱动的范式从大量驾驶数据中学习端到端驾驶策略。
VADv2算法框架:
图片来源:《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》
VADv2以车载相机采集的流式图像序列作为输入。鉴于图像信息稀疏性,VADv2将图像信息转换为具有高层语义信息的tokens。由于在连续的动作空间上学习概率分布较为困难,VADv2将动作空间离散化,通过最远轨迹采样的方式从真实的轨迹数据中筛选出N条轨迹构建轨迹集合,用于表征整个动作空间。
在CARLA仿真器上闭环规划性能(Town05 Long):
图片来源:《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》
CARLA闭环规划性能(Town05 Short):
图片来源:《VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning》
更多闭环验证的可视化结果可以参考项目主页(https://hgao-cv.github.io/VADv2)。

4. SuperDrive

地平线SuperDrive是地平线面向量产的端到端自动驾驶解决方案,先实现“Two Model”方案,未来向“One Model”方案演进。
图片来源:地平线
其中,
  1. 感知模型:采用基于Transformer的感知网路,将动态、静态、OCC三网合一,统一在一个Transformer架构下,不需要对感知数据进行抽象和逐级传递,算法基础来自于UniAD。
  2. 规控模型:采用交互式预决策模型。

15

英伟达

2024年6月,在CVPR2024挑战赛中,英伟达得分0.9274,拿到第一名。论文:《Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation》
英伟达Hydra-MDP模型架构:
图片来源:论文《Hydra-MDP:End-to-endMultimodalPlanningwithMulti-targetHydra-Distillation》
Hydra-MDP是非全局型的端到端,它仍然有两个骨干网,这与目前流行的全局型端到端有着非常大的区别,虽然英伟达强调原始信息不流失,但这只是指骨干网提取特征到Decoder阶段不流失,而特征提取阶段仍然有可能流失。
英伟达仍然采用了传统的CNN骨干网(谷歌的ViT-L,参数约为3.07亿),并且使用了基于激光雷达而非摄像头的BEV感知(其他大部分团队都是纯前视摄像头,不加任何处理)。预测头增加了不少,包括舒适类、可行驶空间、非过错碰撞,多目标蒸馏还加入了基于规则的教师模型。
2024年,吴新宙展示了英伟达自动驾驶业务从L2到L3的发展规划,其中提到规划的第二步为“在L2++系统上达成新突破,LLM和VLM大模型上车,实现端到端的自动驾驶”。

16

Wavye

2017年,Wayve成立于英国剑桥,聚焦研发端到端自动驾驶以及自动驾驶大模型。
2024年5月,Wayve宣布获得了10.5亿美元融资,其股东包括微软、软银、英伟达等。

1. 产品概览

Wayve先后推出了大型语言模型LINGO-1/2,视觉生成模型GAIA-1,以及专为高级自动驾驶仿真训练和测试而设计的PRISM-1。

图片来源:甲子光年
2018年9月,Wayve发表论文:Learning to Drive in a Day。Wayve展示了其自动驾驶系统在短时间内学习驾驶的能力。与DAVE-2主要基于CNN的模仿学习方法不同,Wayve结合了强化学习和深度学习算法。
Wayve基于强化学习的端到端神经网络:

2. LINGO-1

2023年,Wayve推出了LINGO-1,该模型在各类视觉和语言数据源上进行训练,可以对感知、规划、推理等任务进行视觉问答,并可以对驾驶行为作出解释。升级版本的LINGO-1甚至可以对道路语义信息进行分割。
LINGO-1可以提供驾驶行为和推理的描述:
图片来源:Wayve

3. LINGO-2

2024年,Wayve发布LINGO-2。

LINGO-2首次将视觉-语言-动作融合的大模型搭载上车,并开始商业化测试。视觉-语言-动作大模型构建了自动驾驶AGI的新范式,显著提升了AI驾驶系统的可解释性,使AI的决策过程更加透明,也将AI用于自动驾驶的能力提升到新的水平。

  • LINGO-2模型不仅能够执行驾驶任务,还能用自然语言与用户进行沟通,解释其决策背后的原因。例如,当AI决定减速时,它会向用户解释是因为检测到前方有行人过马路,从而增强用户对自动驾驶系统的信任感。

  • LINGO-2模型还具备根据用户的自然语言指令调整驾驶行为的能力。用户只需发出简单的指令,如"靠边停车"或"右转",AI就能理解并执行,同时解释其决策依据,展现出高度的互动性和智能性。

  • LINGO-2模型还支持视觉问答功能,能够回答用户关于场景和驾驶行为的问题,展示其对周围环境的深入理解和安全导航的能力。例如,当用户询问为什么左转时,AI会用自然语言解释“左转可以更快到达目的地”。
LINGO-2架构:
图片来源:Wavye

4. GAIA-1

2023年,Wayve发布世界模型GAIA-1(https://wayve.ai/thinking/scaling-gaia-1/)。
GAIA-1通过整合视频、文本和动作输入,显著提升了生成逼真驾驶视频的能力。它不仅能够精确控制自动驾驶车辆的行为和场景特征,而且其多模态特性使得GAIA-1能够根据各种提示模态和组合生成多样化的视频内容。
GAIA模型能够生成长达数分钟的驾驶视频,这些视频细节丰富,严格遵循场景特征和车辆行为的预设规则。这一技术突破极大地提升了自动驾驶技术的决策力和安全性,有效解决了人工智能在预测和导航复杂现实世界交互时面临的诸多挑战。
GAIA-1多模态视频生成示例:

图片来源:Wavye
GAIA-1的架构:

图片来源:Wavye
GAIA-1首先将模型分为两个部分:世界模型和视频扩散解码器。世界模型是一个自回归的转换器,它根据过去的图像、文本和动作标记来预测下一个图像标记。视频解码器以更高的时间分辨率将预测的图像标记映射回像素空间。

17

极佳科技

极佳科技成立于2023年,是一家专注于世界模型技术和视频生成应用的公司。
极佳科技团队拥有超过十年的人工智能技术研发经验,在人工智能方向拥有很强的研发能力,发表AI顶级论文200余篇,发布SiamRPN、WebFace260M、BEVDet、DriveDreamer等视觉和AI方向知名或开创性技术成果。

1. DriveDreamer:世界模型

2023年9月,极佳科技和清华大学联合推出了DriveDreamer,该模型是全球首个物理世界驱动的自动驾驶世界模型,采用注意力机制和Diffusion模型构建,在业界引起了广泛的关注。(论文:https://drivedreamer.github.io/
极佳科技的多模态视觉生成大模型,在其训练过程中,引入了数十亿图像数据进行预训练的DiffusionModel作为基础模型,在其上引入了ActionFormer模块、经自动驾驶场景特别优化的大语言模型、以及统一多视角视频模型(UniMVM)。由此支持以多模态数据(文本、图像、HDMap,3D框、历史驾驶动作)作为控制条件输入,预测生成:符合输入条件的、支持规控算法闭环控制,并且能够在一个统一模型架构内,同时支持环境生成、交通流生成、传感器数据生成。

DriveDreamer可以实现:

  • 自动驾驶场景的高效数据生成;

  • 通过与驾驶控制信号的结合,DriveDreamer可以实现高效的数据生成、编辑与交互,从而用于实现端到端自动驾驶的全链路闭环仿真;

  • DriveDreamer所具备的场景理解能力,可以扩展实现直接输出端到端的动作指令,成为新一代端到端方案的重要环节。
DriveDreamer架构:
图片来源:《DriveDreamer:Towards Real-world-driven World Models for Autonomous Driving》
目前,基于DriveDreamer的产品与方案已经在多个主机厂和自动驾驶科技公司实现定点落地。
基于DriveDreamer的GFM,以及Giga Studio和Giga World:

图片来源:极佳科技


图片来源:极佳科技


2. Giga Studio:具身智能视觉数据引擎

Giga Studio可以提升数据泛化性能,生成CornerCase,实现传感器/车型数据迁移等。

图片来源:极佳科技

图片来源:极佳科技

图片来源:极佳科技(跨传感器/车型数据迁移)


3. Giga World:数字孪生闭环模拟器

Giga World架构如下:

图片来源:极佳科技

Giga World的特点:

  • Map+Actor+Render->统一的世界模型;

  • 原生支持E2E-AD+Closeloop;

  • 简化场景设计/实现:无需HDMap;文+结构化->灵活控制下的充分多样性;

  • MinimumSim2RealGap:源自GFM生成模型的高度真实性;
图片来源:极佳科技

18

光轮智能

光轮智能于2023年初成立,已完成种子轮、天使轮、天使+、PreA轮四轮融资,累计融资上亿元。

光轮智能致力于为企业落地AI提供合成数据解决方案,结合生成式AI和仿真技术,为行业提供多模态、高真实度、可泛化、全链路的合成数据,开发了自研的端到端数据与仿真的全链路解决方案。
2024年3月,光轮智能与上海人工智能实验室联合推出,并开源自动驾驶3DOccupancy合成数据集"LightwheelOcc",用于CVPR2024自动驾驶挑战赛。

—实验室—

19

上海AI Lab

上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。


近期主要工作:

  1. 2022年,开源了BEVFormer架构,时至今日依然是自动驾驶行业内最通用的视觉感知算法架构。

  2. 2023年6月,和武汉大学、商汤科技联合提出的端到端自动驾驶算法UniAD,获得CVPR2023最佳论文,是近十年来计算机视觉顶级会议中,第一篇以中国学术机构作为第一单位的最佳论文。

  3. 2024上半年,推出利用大语言模型进行闭环端到端自动驾驶的工作LMDrive、自动驾驶视频生成模型GenAD等。

  4. 主导了DriveLM(语言+自动驾驶数据集)、GenAD(驾驶视频数据集)、OpenLane(车道线数据集)、OpenScene(3D占用空间预测数据集)多个自动驾驶开源数据集建设,主办了CVPR2023自动驾驶挑战赛、CVPR2024自动驾驶挑战赛。

20

清华大学MARS Lab

MARS Lab多模态学习实验室,是清华大学交叉信息院下的交叉学科人工智能实验室,由前Waymo科学家赵行教授组建和指导。MARS Lab尝试解决一系列探索性的AI问题,并且一直在寻找新的挑战。 
MARS Lab研究如何让机器像人一样的能够通过多种感知输入进行学习、推理和交互,研究涵盖了多模态学习的基础问题及其应用:(1)多媒体计算, (2)自动驾驶, (3)机器人, (4)多传感器。



21

结语

从目前各家方案来看,笔者雪岭观察到的几个关键点:
1. 开发进度方面:
1)特斯拉、小鹏、理想、华为、地平线、商汤、百度等公司“端到端”量产进度走在前列;
2)重点高校和研究实验室在“端到端”前沿技术的开发中,起到了重要的作用,学术界和产业界合作和互动密切,共同推动“端到端”的研发和落地;

3)为了更好的适配“端到端”技术架构,研发组织架构的调整已经开始,重组为模型开发和模型部署的趋势较为明显;



2. 模型方面:
1)目前“端到端”架构主要以“Two Model”方案为主,多个厂家都规划逐渐过渡到“One Model”;
2)LLM或者VLM等大模型具备理解复杂环境的能力,往往作为可以深度思考的“慢系统”,识别真实世界的复杂场景;
3)世界模型作为生成式AI,目前主要用于仿真数据的生成;

4)目前各种端到端模型的下限比较低,在实际量产落地中,必须有安全兜底模块保证车辆安全;



3. 硬件方面:
1)目前大算力的硬件平台(例如Orin-X,FSD等)可以支持当前“端到端”模型的运行;

2)未来更大算力的硬件平台(例如Thor,AI5等)以及针对“端到端”模型的进一步优化设计的SoC,会持续提升模型运行的速度和性能;




文中对于端到端模型描述较为简略,详细信息请参考论文原文。论文列表在见参考资料,可以关注“雪岭飞花”公众号,回复“端到端论文”,即可获得下载链接。


本文内容仅代表个人观点,未必反映真实情况,仅供参考。如需要相关内容更详细的技术信息,欢迎添加“雪岭飞花”微信(maxhnnl)进一步交流,感谢。


参考资料

  1. Planning-oriented Autonomous Driving

  2. DriveVLM:The Convergence of Autonomous Driving and Large Vision-Language Models

  3. DriveDreamer:Towards Real-world-driven World Models for Autonomous Driving(2309.09777v2)

  4. GraphAD:Interaction Scene Graph for End-to-end Autonomous Driving

  5. DriveGPT4:Interpretable End-to-end Autonomous Driving via Large Language Model

  6. GAIA-1:A Generative World Model for Autonomous Driving(2309.17080v1)

  7. Level 2 Autonomous Driving on a Single Device:Diving into the Devils of Openpilot(2206.08176v1)

  8. VAD:Vectorized Scene Representation for Efficient Autonomous Driving(2303.12077v3)

  9. VADv2:End-to-End Vectorized Autonomous Driving via Probabilistic Planning(2402.13243v1)

  10. SparseDrive:End-to-End Autonomous Driving via Sparse Scene Representation(2405.19620v2)

  11. Sparse4D:Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion(2211.10581v2)

  12. Sparse4D v2:Recurrent Temporal Fusion with Sparse Model(2305.14018v2)

  13. Sparse4D v3:Advancing End-to-End 3D Detection and Tracking(2311.11722v1)

  14. DualAD:Disentangling the Dynamic and Static World for End-to-End Driving(2406.06264v1)

  15. End-To-End Planning of Autonomous Driving in Industry and Academia:2022-2023(2401.08658v1)

  16. End-to-end Autonomous Driving:Challenges and Frontiers

  17. consumer-reports-active-driving-assistance-systems-november-16-2020

  18. Level 2 Autonomous Driving on a Single Device Diving into the Devils of Openpilot

  19. Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey

  20. World Models for Autonomous Driving:An Initial Survey

  21. 汽车端到端自动驾驶系统的关键技术与发展趋势_李升波


雪岭:自动驾驶-系列文章

  1. 《自动驾驶系统:全景概览》

  2. 《雪岭 · 自动驾驶(1/10):系统架构》

  3. 《雪岭 · L3自动驾驶冗余模式和设计纲要》

  4. 《雪岭 · 自动驾驶(2/10):感知系统》

  5. 《雪岭 · 自动驾驶(3/10):控制系统-硬件(上):域控制器硬件架构》

  6. 《雪岭 · 自动驾驶SOC——芯片架构、6个主要玩家Roadmap和产品、技术趋势》

  7. 《雪岭 · Robotaxi最新发展现状、主要玩家和技术趋势》

  8. 《雪岭 · 可能的自动驾驶终极解决方案——“端到端”开发体系概览(1/2)》


雪岭:激光雷达-系列文章

  1. 《激光雷达系列(一):原理、分类和发展趋势》

  2. 《激光雷达系列(二):国内主要激光雷达公司产品简介》

  3. 《激光雷达系列(三):配备激光雷达的汽车汇总(含安装方式)》(链接:https://zhuanlan.zhihu.com/p/688537867)

  4. 《55图分析:华为激光雷达详细拆解和系统方案》(华为96线激光雷达)

  5. 《发布 · 华为最新192线激光雷达拆解分析报告》

  6. 《凭啥做到1000元级?速腾最新产品MX分析》

  7. 《1.5万字初探:车载激光雷达的终极形态——FMCW激光雷达的原理、优势、方案和玩家》

  8. 《雪岭 · 激光雷达常见点云异常场景分析》

  9. 《Yole最新重要报告解读:《Lidar for Automotive 2024》

  10. 《雪岭 · 万字再谈FMCW激光雷达——发展现状、挑战和应对(含2个国内头部玩家介绍)》


雪岭:毫米波雷达-系列文章

  1. 毫米波雷达原理详见:《毫米波雷达系列(一):毫米波雷达简介》(链接:https://zhuanlan.zhihu.com/p/686260069)

  2. 《毫米波雷达系列(二):毫米波雷达的性能局限》

  3. 《4D成像毫米波雷达应用现状和发展趋势》

  4. 《万字介绍:4D成像毫米波雷达方案和34家主要雷达公司产品》

  5. 《毫米波技术的进步:适用于汽车雷达的封装上装载 (LoP) 技术》

  6. 《雪岭 · 毫米波雷达典型“误报漏报”场景分析》


雪岭:红外摄像头-系列文章

  1. 《雪岭 · 万字初探红外摄像头(上):基本原理、特点、应用和国外主要玩家》

  2. 《雪岭 · 万字初探红外摄像头(下):自动驾驶感知“响尾蛇”——长波红外热成像系统》



我是雪岭飞花,汽车行业24年开发经验,自动驾驶行业发展的见证者和参与者,自动驾驶感知和控制系统资深专家。

有深度、高质量的技术分享,如果文章对您有帮助,欢迎关注、点赞和转发。如有疏漏或者错误,请批评指正。

如需加入自动驾驶专家微信群,和数百位自动驾驶CEO/CTO、研发/产品总监、资深开发专家探讨交流,请添加“雪岭飞花”微信(扫描下方二维码,或者搜索maxhnnl,特请备注所在公司和专业方向,感谢)。

雪岭飞花
研究自动驾驶行业最新趋势,做有深度、高质量的技术分享,推动自动驾驶技术的普及和发展。
 最新文章