Waymo首个端到端模型曝光，也是纯视觉

汽车 2024-11-11 18:00 北京

一凡发自副驾寺
智能车参考 | 公众号 AI4Auto

追求可解释性，Waymo的端到端模型来了。

Waymo近日发布了自动驾驶最新研究成果：

多模态端到端模型EMMA。

以谷歌的Gemini为基础，不借助高精地图，只使用摄像头数据，依然是数据进，轨迹出。

但Waymo在研究中，多次强调了可解释性，试图打破人们对端到端“黑盒不可解释”的质疑。

具体怎么做？

Waymo多模态端到端模型

在论文中，Waymo首先强调了以往模块化开发的局限性，认为端到端是自动驾驶的“一种潜在解决方案”。

但Waymo认为，很多端到端系统同样有自身的局限性：

通常专用于特定驾驶任务，并且训练集的规模有限，这阻碍了模型提高泛化能力。

因此，Waymo以多模态大语言模型（MLLM）Gemini为底座，提出了新范式：

EMMA。

Waymo表示，EMMA是专用于自动驾驶的多模态端到端模型，主要有三大关键研究：

端到端学习
统一语言空间
思维链推理

首先，端到端学习的概念大家都很熟悉了，但Waymo的做法有点不太一样。

输入端包括传感器输入和非传感器输入。

传感器输入方面，由于MLLM自身的限制，Waymo只采用了环视摄像头采集环境信息，EMMA只有视觉数据。

‍然后是非传感器输入的文本数据：

高等意图命令，例如左转、右转等指令，来自路由器。
历史自车状态集合，表示为BEV空间下的一组路径坐标点。

EMMA会根据视频数据和文本数据，生成一系列纯文本输出。

怎么输出也是文本数据？

Waymo表示，之所以将非传感器输入和输出表示为文本，是为了统一语言空间，这也是EMMA的一个创新之处：

将驾驶任务定义为视觉问答问题。这样能够充分使用Gemini的预训练能力，最大化地利用其“世界知识”。

那输出内容具体都包括什么？

主要是运动轨迹，还有感知对象和道路图元素，增强了端到端模型的可解释性。

此外，Waymo还将思维链推理纳入轨迹生成，提升模型性能的同时，也增强了可解释性。

具体而言，是Waymo要求EMMA讲述模型的决策原理，即“为什么要这样开？”，同时预测最终的未来轨迹点。

为了让EMMA讲述清楚，Waymo从从4个层次构建了驾驶原理：

R1感知场景并描述：广泛描述驾驶场景，包括天气和路况。
R2感知关键对象：识别可能影响开车的交通参与者，并以坐标来表示。示例：行人[9.01，3.22]
R3描述关键对象的行为：描述已识别到对象的状态和意图。示例：[9.01，3.22]的行人站在人行道上，看着斑马线，可能是要过马路。
R4元驾驶决策：包括12类高级驾驶决策，根据此前感知内容和描述，总结驾驶决策。示例：[9.01，3.22]的行人可能是要过马路，所以此时“我”应该减速让行。

从整个过程来看，Waymo提出的工作主要是增强任务的泛化性可解释性两大方面。

最后来看下EMMA的性能表现。

Waymo利用Gemini最小尺寸的版本：Gemini 1.0 Nano-1，在Waymo Open Motion DataSet和nuSecnes上主要验证了轨迹生成，前者如下：

可以看到EMMA并没有全部占优，ADE 8s上的表现稍弱于Wayformer。

在nuScenes上相比DriveVLM-Dual提高了6.4%的平均L2指标：

这是2大公开数据集的验证结果，此外Waymo还在内部数据集上验证了引入思维链后的端到端模型能力，结果显示比常规端到端的规划方案有6.7%的改进。

显然，EMMA在一些数据集上表现不错，但也面临着一些挑战。

限制与可能的解决方案

在论文最后，Waymo坦承目前EMMA还面临着很多限制，主要包括以下3个方面：

首先，最关键的问题在输入侧，大家应该也发现了，目前EMMA只支持输入视频数据，即只支持摄像头，这并不代表着Robotaxi头雁Waymo也要追随马斯克了。

而是因为EMMA严重依赖预训练好的MLLM，MLLM对雷达的支持一般都不是太好。

Waymo接着给出了扩展EMMA对3D传感器支持的两大挑战：

可用视频数据比3D感知数据要多的多，导致3D感知编码器的通用性，相比视觉感知编码器不太好。
3D感知编码器的规模和水平也不及视觉感知编码器。

对此，Waymo给出了一种潜在解决方案，可以用认真对齐后的视频数据预训练大规模3D感知编码器，能促进更好的跨模态协同，提高3D感知编码器的协同作用。

其次，即便目前只利用到了视觉数据，EMMA能处理的视频序列长度也有限，最多仅4个帧，这限制了模型的推理能力。

Waymo表示接下来会通过集成内存模块或扩展长序列能力的方式来解决。

最后还有工程问题，不管是用于闭环评估的仿真训练，还是车端实际落地部署，EMMA的计算成本都比较高。

总体来看，Waymo在端到端自动驾驶上做了可解释性的探索，有很多创新之处，EMMA表现出了不错的性能，但离上车还有很远一段距离。

Waymo近日在市场上顺风顺水，左手56亿美元到账，估值冲上450亿美元，右手周订单迅速突破15万，在旧金山每日拉客数已超过出租车。

当端到端正式上车，这只3000亿超级独角兽，是不是会在商业化上更上一层楼呢？

论文传统门：
https://arxiv.org/abs/2410.23262v1

— 联系作者 —

— 完 —

案例征集中

「2024Robotaxi年度玩家」

2024，Robotaxi再度被推向浪潮之巅。

因此，量子位智库联合智能车参考《Robotaxi2024年度报告》正式启动，并且为了更完整分享当前玩家的格局和进展，同时启动「Robotaxi年度玩家」征集。

欢迎扫码报名评选！参与和见证Robotaxi行业的全景展现。

— 完 —

【智能车参考】原创内容，未经账号授权，禁止随意转载。

点这里👇关注我，记得标星，么么哒～

http://mp.weixin.qq.com/s?__biz=MzkzOTE3Nzc5MA==&mid=2247536205&idx=1&sn=a7807200a8823db933222d114015bfc2

智能车参考

追踪车圈先进技术|好用产品|新进展和认知

最新文章

投资人太热情，小马智行增发IPO股份，募资升至33亿元

Waymo首个端到端模型曝光，也是纯视觉

一凡 发自 副驾寺智能车参考 | 公众号 AI4Auto

Waymo多模态端到端模型

限制与可能的解决方案

一凡发自副驾寺
智能车参考 | 公众号 AI4Auto