Waymo首个端到端模型曝光,也是纯视觉

汽车   2024-11-11 18:00   北京  
一凡 发自 副驾寺
智能车参考 | 公众号 AI4Auto

追求可解释性,Waymo的端到端模型来了。

Waymo近日发布了自动驾驶最新研究成果:

多模态端到端模型EMMA。

以谷歌的Gemini为基础,不借助高精地图,只使用摄像头数据,依然是数据进,轨迹出

但Waymo在研究中,多次强调了可解释性,试图打破人们对端到端“黑盒不可解释”的质疑。

具体怎么做?

Waymo多模态端到端模型

在论文中,Waymo首先强调了以往模块化开发的局限性,认为端到端是自动驾驶的“一种潜在解决方案”。

但Waymo认为,很多端到端系统同样有自身的局限性:

通常专用于特定驾驶任务,并且训练集的规模有限,这阻碍了模型提高泛化能力。

因此,Waymo以多模态大语言模型(MLLM)Gemini为底座,提出了新范式:

EMMA

Waymo表示,EMMA是专用于自动驾驶的多模态端到端模型,主要有三大关键研究:

  • 端到端学习

  • 统一语言空间

  • 思维链推理

首先,端到端学习的概念大家都很熟悉了,但Waymo的做法有点不太一样。

输入端包括传感器输入和非传感器输入。

传感器输入方面,由于MLLM自身的限制,Waymo只采用了环视摄像头采集环境信息,EMMA只有视觉数据。

然后是非传感器输入的文本数据

  • 高等意图命令,例如左转、右转等指令,来自路由器。

  •    历史自车状态集合,表示为BEV空间下的一组路径坐标点。

EMMA会根据视频数据和文本数据,生成一系列纯文本输出

怎么输出也是文本数据?

Waymo表示,之所以将非传感器输入和输出表示为文本,是为了统一语言空间,这也是EMMA的一个创新之处:

将驾驶任务定义为视觉问答问题。这样能够充分使用Gemini的预训练能力,最大化地利用其“世界知识”。

那输出内容具体都包括什么?

主要是运动轨迹,还有感知对象和道路图元素,增强了端到端模型的可解释性

此外,Waymo还将思维链推理纳入轨迹生成,提升模型性能的同时,也增强了可解释性。

具体而言,是Waymo要求EMMA讲述模型的决策原理,即“为什么要这样开?”,同时预测最终的未来轨迹点。

为了让EMMA讲述清楚,Waymo从从4个层次构建了驾驶原理:

  • R1感知场景并描述:广泛描述驾驶场景,包括天气和路况。

  • R2感知关键对象:识别可能影响开车的交通参与者,并以坐标来表示。示例:行人[9.01,3.22]

  • R3描述关键对象的行为:描述已识别到对象的状态和意图。示例:[9.01,3.22]的行人站在人行道上,看着斑马线,可能是要过马路。

  • R4元驾驶决策:包括12类高级驾驶决策,根据此前感知内容和描述,总结驾驶决策。示例:[9.01,3.22]的行人可能是要过马路,所以此时“我”应该减速让行。

从整个过程来看,Waymo提出的工作主要是增强任务的泛化性可解释性两大方面。

最后来看下EMMA的性能表现。

Waymo利用Gemini最小尺寸的版本:Gemini 1.0 Nano-1,在Waymo Open Motion DataSet和nuSecnes上主要验证了轨迹生成,前者如下:

可以看到EMMA并没有全部占优,ADE 8s上的表现稍弱于Wayformer。

在nuScenes上相比DriveVLM-Dual提高了6.4%的平均L2指标:

这是2大公开数据集的验证结果,此外Waymo还在内部数据集上验证了引入思维链后的端到端模型能力,结果显示比常规端到端的规划方案有6.7%的改进。

显然,EMMA在一些数据集上表现不错,但也面临着一些挑战。

限制与可能的解决方案

在论文最后,Waymo坦承目前EMMA还面临着很多限制,主要包括以下3个方面:

首先,最关键的问题在输入侧,大家应该也发现了,目前EMMA只支持输入视频数据,即只支持摄像头,这并不代表着Robotaxi头雁Waymo也要追随马斯克了。

而是因为EMMA严重依赖预训练好的MLLM,MLLM对雷达的支持一般都不是太好。

Waymo接着给出了扩展EMMA对3D传感器支持的两大挑战:

  • 可用视频数据比3D感知数据要多的多,导致3D感知编码器的通用性,相比视觉感知编码器不太好。

  • 3D感知编码器的规模和水平也不及视觉感知编码器。

对此,Waymo给出了一种潜在解决方案,可以用认真对齐后的视频数据预训练大规模3D感知编码器,能促进更好的跨模态协同,提高3D感知编码器的协同作用。

其次,即便目前只利用到了视觉数据,EMMA能处理的视频序列长度也有限,最多仅4个帧,这限制了模型的推理能力。

Waymo表示接下来会通过集成内存模块或扩展长序列能力的方式来解决。

最后还有工程问题,不管是用于闭环评估的仿真训练,还是车端实际落地部署,EMMA的计算成本都比较高。

总体来看,Waymo在端到端自动驾驶上做了可解释性的探索,有很多创新之处,EMMA表现出了不错的性能,但离上车还有很远一段距离。

Waymo近日在市场上顺风顺水,左手56亿美元到账,估值冲上450亿美元,右手周订单迅速突破15万,在旧金山每日拉客数已超过出租车。

当端到端正式上车,这只3000亿超级独角兽,是不是会在商业化上更上一层楼呢?

论文传统门:
https://arxiv.org/abs/2410.23262v1

— 联系作者 —

案例征集中

「2024Robotaxi年度玩家」

2024,Robotaxi再度被推向浪潮之巅。

因此,量子位智库联合智能车参考《Robotaxi2024年度报告》正式启动,并且为了更完整分享当前玩家的格局和进展,同时启动「Robotaxi年度玩家」征集。

欢迎扫码报名评选!参与和见证Robotaxi行业的全景展现。

—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~

智能车参考
追踪车圈先进技术|好用产品|新进展和认知
 最新文章