Waymo也要转向端到端了？

科技 2024-12-06 18:00 广东

作为自动驾驶领域多源融合路线的代表Waymo，上个月发布了一篇基于谷歌Gemini Nano语言大模型的端到端自动驾驶方案的论文，一经发布引起自动驾驶行业的关注，同时在国内上至华为下至整车企业纷纷又一次调整方向，押注端到端自动驾驶方向。

论文题目《EMMA:End-to-End Multimodal Model for Autonomous Driving》

论文地址：https://arxiv.org/abs/2410.23262。

先看一下EMM论文的总览图：

整个架构也比较常规，输入有三部分：

高层的路径指令，例如左转、右转、直行等，来自导航地图信息；
自车的历史状态；
环视相机视频信息。模型将这三部分信息输入到一个Gemini Nano

语言大模型中，输出自车的规划路径。

具体实现方法：

整个方案基于谷歌的Gemini语言大模型，Gemini是一个多模态人工智能模型，支持文本、图像、音频、视频和代码的处理与理解，具备强大的跨模态推理能力。该模型分为多个版本，包括Ultra、Pro和Nano.

此次EMMA正是在Nano版本上进行，处理过程可以用一个公式表示：O= G(T, V)

其中G是Gemini大模型，O是自然语言输出，这是一个预测的未来轨迹序列序列，也是用普通文本表示。

T代表是文本信息主要有两部分统一表示成自然语言Prompt，一部分是高层路径意图信息，这里是指谷歌导航地图的指令信息，例如直行、左转、右转等；另一部分是自车的历史位置信息[(x1, y1), (x2, y2), ..., (xt, yt)]，坐标系是BEV空间下的全局坐标，利用历史的信息可以保持自车轨迹的平滑。

V代表的是环视相机视频输入也就是图像的BEV视角信息，用于理解周边环境信息。

轨迹的tokenize方法，本论文采用了将轨迹waypoints转换为文本表示的方法。具体来说，轨迹的每个waypoint由二维坐标（x, y）表示，这些坐标被转换为文本格式。在论文的框架中，所有的输出任务都以自然语言文本的形式呈现，以便在统一的语言空间中处理。

具体到轨迹的tokenize方法，文件中提到了两种可能的表示方式：

（1）直接文本转换为浮点数：这种方式将3D世界坐标直接转换为文本形式的浮点数。例如，对于运动规划中的轨迹点（waypoint）BEV（鸟瞰图）位置（x, y），可以表示为Tcoordinates = {(xi, yi)} ≈ text({(xi, yi)})，其中指定的小数位数取决于距离单位和需要的精度。

（2）使用特殊标记：另一种方法是使用特殊的标记（tokens）来代表每个位置或动作，例如Tcoordinates = {(xi, yi)} ≈ tokenize({(xi, yi)})，其分辨率由学习到的或手动定义的离散化方案确定。

论文主要亮点在于以下四个方面：

第一、该方案在端到端运动规划方面表现出强大性能，在NuScenes数据集上取得了最先进的性能表现，以及在Waymo开放运动数据集（WOD）上的获得了具有竞争力的结果。还可以通过更多的内部训练数据和思维链推理来进一步提高运动规划的质量；

第二、演示了各种感知任务的竞争结果，包括三维目标检测、道路图估计和场景理解。在主相机主waymo开放数据集（WOD）上比最先进的方法获得了更好的三维目标检测精度和召回率；

第三、证明了EMMA可以作为自动驾驶领域的一个基础模型，它可以共同生成多个驾驶相关任务的输出。当Emma与运动规划、目标检测和道路图任务共同训练时，它的性能匹配甚至超过了单独训练的模型；

第四、模型具备在复杂的长尾驾驶场景中进行推理和做出决策的能力。

那么，为什么一篇端到端的论文会引起自动驾驶行业的热论，不仅仅是因为发论文的归属是Waymo，更重要的是为自动驾驶的研究或者端到端方案提供了一种新的方法和思路，整篇论文还是有扎实的测试验证，详情可以查阅原文此处不再赘述，说明从这个想法提出到论文成型至少有两年，也就是国内还在跟着特斯拉的AI day研究transformer网络架构的时候，Waymo已经开展了大模型与端到端自动驾驶结合相关的研究工作。EMMA的训练过程是自监督的，这一点和语言模型的预训练类似，两者不需要人为的输入，让模型自己在隐空间内寻找人类没有发现的规则，做到了语言模型和自动驾驶模型方法的统一。其次EMMA将谷歌在人工智能领域提出的思维链引入自动驾驶模型之中，在规划器轨迹生成中，通过要求模型表述其决策依据O_rationale，同时预测最终的未来轨迹路径点O_trajectory。这样既可以沿用谷歌在大模型领域的技术积累，又可以增强自动驾驶模型的推理能力增加算法的可解释性。

EMMA的局限性或者下一步需要解决的问题有几点：

内存和视频容量；
扩展激光雷达和毫米波雷达的信息的输入；
对预测信号的验证；
用于闭环评估的传感器仿真；
车载领域的部署问题。

端到端的方案成为自动驾驶研究或者量产的新方向，以视觉（V）-语言（L）模型架构为核心的多模态端到端的方案，旨在通过统一的语言空间表征实现从传感器信号输入到规划任务输出的完整自动化流程，这种方法也为端到端方案提供了一种新的方法，虽然大家都在提端到端，但是实现的路径方面却各不相同。VLA的架构因为是自监督学习，可以减少数据标注的成本，泛化能力比较强，同时可以提高自动驾驶技术的门槛，例如Waymo是基于谷歌的Gemini多模态人工智能模型开展的，而基础模型Gemini是不开源的，所以即使Emma开源了，别人也没办法仿造出来。除了VLA架构端到端自动驾驶方案以外，目前行业内还有两种企业界常用的，也是逐渐落地使用的方案。

以华为为代表的模块化端到端方案

这个领域比较经典的代表原理论文是获得CVPR 2023年的最佳论文《Planning-oriented Autonomous Driving》，由上海人工智能实验室、武汉大学和商汤共同发布。该论文中提出的UniAD端到端自动驾驶架构，将全栈驾驶任务整合到一个网络中，从全局角度提供互补的特征抽象以进行物体交互，任务通过统一的查询接口进行通信，以相互促进规划。相较于以往的基于规则的方法模块化端到端具备更好的性能，在决策规划方面也从基于规则变为基于学习的方法，实现了从感知到决策规划全局优化，并且在计算资源和各模块的技术积累方面也有一定的优势。

华为在今年4月份发布的ADS 3.0当中，将GOD和RCR都神经网络化，并将这部分算法纳入到一个完整的GOD感知神经网络之中，而后再将感知数据交由PDP决策神经网络来规划行车路线，输出处理后的结果。整个链路中GOD感知模块General Obstacle Detection，通用障碍物检测网络，通过激光雷达+摄像头，来识别通用障碍物白名单外的异形物体，用3D像素块来构建出障碍物的轮廓，从而对路上的障碍物进行精细识别，不但能够识别障碍物的动静态，而且也能匹配区分障碍物类别。 RCR模块是Road Cognition & Reasoning，道路拓扑推理网络，结合普通导航地图来与现实进行匹配和印证，再实时通过传感器来拓补绘制一幅可用的行车地图。模块化端到端方案也是目前自动行业比较通用的方案，技术成熟度较高，可以实现落地应用。缺点也很明显，模块之间存在相互依赖性，在整个网络优化中容易顾此失彼，对长尾场景解决能力较差。

以理想汽车为代表的双系统混合端到端方案

代表性论文的理想汽车和清华联合发布的论文：《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

DriveVLM是一种混合系统，利用DriveVLM对环境的综合理解和决策轨迹的建议，提升了传统自动驾驶Pipeline的决策和规划能力。它将3D感知结果合并为语言提示，以增强3D场景理解能力，并通过实时运动规划器进一步细化轨迹路点。DriveVLM包含一个 Chain-of-Though (CoT) 流程，该流程具有三个关键模块：场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境，并识别场景中的关键对象；场景分析模块深入研究关键对象的特征及其对自我车辆的影响；分层规划模块从元动作和决策描述到路径点逐步制定计划，CoT这一点应用和Waymo的类似，毕竟：

Perhaps good design always has a kind of telepathy.

在这个混合系统中集成了模块化端到端和VLM的架构，理想命名为快慢双系统，来源于《思考快与慢》这本著作，其作者是一名心理专家，并且获得诺贝尔经济学奖。

系统1就是无意识系统，感性脑，直觉脑；

系统2，就是意识系统，理性脑。

理论上理想汽车是想通过两个系统的结合做到优劣互补，其实不是时间维度上衡量的快和慢，模块化可以弥补VLM的空间推理和实时性不足的问题，而VLM通过高维数据新的输入可以提高系统的泛化能力。这种方法在实验室环境或者学术研究中是可以呈现，但是在实际的应用之中难度有点大，尤其是在当前的算力资源情况下，其次两个系统之间的协同就是一个大问题，最后是VLM模型的基础模型问题，虽然国内大模型之战已经开展许久，但是相比于与谷歌、特斯拉的基础模型还是有一点距离，更别提车企或者自动驾驶创业公司，毕竟并不是参数量大了、应用transformer架构的模型都叫大模型，大和大还是有区别的。根据架构设计的简单原则、合适原则和演化原则，尽量减少组件的数量和依赖关系，减少系统的移动部件，优化通信路径，避免过度的服务调用和数据传输。所以，这种混合架构是一种过渡性架构，依然存在着技术上的诸多难点。目前小鹏汽车发布的神经网络XNet+规控大模型XPlanner+大语言模型XBrain自动驾驶架构也是一种混合架构，只是没有理想汽车营销包装的好而已，两者底层思路逻辑是相同的。

One more thing，既然混合架构落地难度有点大，为啥车企已经蓄势待发要推上车，其实这已经超出技术范围而是一种商业手段或者策略。正如满大街跑的号称纯视觉自动方案仍然使用高精度定位模块一样。

从各个企业发布的自动驾驶架构来看，端到端无疑是一个新的方向，这也是将驾驶任务代理化，将目标转化分解后的结果。架构的变化也是随着技术的成熟逐渐递进，不会产生颠覆性的结果或者所谓的遥遥领先。以往行业内将端到端自动驾驶方案划分为一段式还是二段式，一段式是感知和决策规划合为一体，这样开发难度更大，好处在于系统的上限能力更高，二段式是感知和决策规划模块分开，中间嵌入人工转接口，开发难度相对低一点，原有的模块也可以做到最大的复用或者实现技术共享。无论是一段还是二段，本质上其实都是模块化端到端自动驾驶方案的变体，既然是端到端一体方案，理应不会出现分段，只是因为技术能力的问题被迫分段，然后将分段网络集成到一个网络模型中进行全局优化。所以讨论一段式二段式不是技术角度，而是在能力层面。随着多模态大模型的能力逐渐被挖掘出来，可以预见的是在端到端方案中VLA架构的戏份将会越来多，例如最近黑芝麻发布的端到端算法参考模型中也加入了VLA，其方案也在决策规划单元引入了VLM视觉语言大模型，并且还有规则的概率化表征模块两个互补，提升轨迹预测准确性。但是，目前没有看到相关论文或者车端部署体现，仅仅是一个技术发布（PPT）。

同样的还有长安汽车，也是和理想汽车类似，基于混合结构的端到端架构，套路都类似只是进行了局部的修改和重新起名。成果体现是在2024年CVPR自动驾驶国际挑战赛里获得了Driving with Language赛道的创新奖，比单纯的技术发布（PPT）进步了一点，但是也不多。

最后随着Waymo的EMMA出现，大模型引导的端到端自动驾驶方案又是一个新的方向。但是，新的问题又会出现，端到端自动驾驶方案要进步，先得有多模态大模型，考验国内大厂大模型能力的时候到了，产品端车企又迎来新的挑战，可谓是一波未平又生一波，技术永远在更新，而落地应用永远在路上，毕竟大模型不是谁都可以玩的转的。