一凡 发自 副驾寺
智能车参考 | 公众号 AI4Auto
追求可解释性,Waymo的端到端模型来了。
Waymo近日发布了自动驾驶最新研究成果:
多模态端到端模型EMMA。
以谷歌的Gemini为基础,不借助高精地图,只使用摄像头数据,依然是数据进,轨迹出。
但Waymo在研究中,多次强调了可解释性,试图打破人们对端到端“黑盒不可解释”的质疑。
具体怎么做?
Waymo多模态端到端模型
在论文中,Waymo首先强调了以往模块化开发的局限性,认为端到端是自动驾驶的“一种潜在解决方案”。
但Waymo认为,很多端到端系统同样有自身的局限性:
通常专用于特定驾驶任务,并且训练集的规模有限,这阻碍了模型提高泛化能力。
因此,Waymo以多模态大语言模型(MLLM)Gemini为底座,提出了新范式:
EMMA。
Waymo表示,EMMA是专用于自动驾驶的多模态端到端模型,主要有三大关键研究:
端到端学习
统一语言空间
思维链推理
首先,端到端学习的概念大家都很熟悉了,但Waymo的做法有点不太一样。
输入端包括传感器输入和非传感器输入。
传感器输入方面,由于MLLM自身的限制,Waymo只采用了环视摄像头采集环境信息,EMMA只有视觉数据。
然后是非传感器输入的文本数据:
高等意图命令,例如左转、右转等指令,来自路由器。
历史自车状态集合,表示为BEV空间下的一组路径坐标点。
EMMA会根据视频数据和文本数据,生成一系列纯文本输出。
怎么输出也是文本数据?
Waymo表示,之所以将非传感器输入和输出表示为文本,是为了统一语言空间,这也是EMMA的一个创新之处:
将驾驶任务定义为视觉问答问题。这样能够充分使用Gemini的预训练能力,最大化地利用其“世界知识”。
那输出内容具体都包括什么?
主要是运动轨迹,还有感知对象和道路图元素,增强了端到端模型的可解释性。
此外,Waymo还将思维链推理纳入轨迹生成,提升模型性能的同时,也增强了可解释性。
具体而言,是Waymo要求EMMA讲述模型的决策原理,即“为什么要这样开?”,同时预测最终的未来轨迹点。
为了让EMMA讲述清楚,Waymo从从4个层次构建了驾驶原理:
R1感知场景并描述:广泛描述驾驶场景,包括天气和路况。
R2感知关键对象:识别可能影响开车的交通参与者,并以坐标来表示。示例:行人[9.01,3.22]
R3描述关键对象的行为:描述已识别到对象的状态和意图。示例:[9.01,3.22]的行人站在人行道上,看着斑马线,可能是要过马路。
R4元驾驶决策:包括12类高级驾驶决策,根据此前感知内容和描述,总结驾驶决策。示例:[9.01,3.22]的行人可能是要过马路,所以此时“我”应该减速让行。
从整个过程来看,Waymo提出的工作主要是增强任务的泛化性可解释性两大方面。
最后来看下EMMA的性能表现。
Waymo利用Gemini最小尺寸的版本:Gemini 1.0 Nano-1,在Waymo Open Motion DataSet和nuSecnes上主要验证了轨迹生成,前者如下:
可以看到EMMA并没有全部占优,ADE 8s上的表现稍弱于Wayformer。
在nuScenes上相比DriveVLM-Dual提高了6.4%的平均L2指标:
这是2大公开数据集的验证结果,此外Waymo还在内部数据集上验证了引入思维链后的端到端模型能力,结果显示比常规端到端的规划方案有6.7%的改进。
显然,EMMA在一些数据集上表现不错,但也面临着一些挑战。
限制与可能的解决方案
在论文最后,Waymo坦承目前EMMA还面临着很多限制,主要包括以下3个方面:
首先,最关键的问题在输入侧,大家应该也发现了,目前EMMA只支持输入视频数据,即只支持摄像头,这并不代表着Robotaxi头雁Waymo也要追随马斯克了。
而是因为EMMA严重依赖预训练好的MLLM,MLLM对雷达的支持一般都不是太好。
Waymo接着给出了扩展EMMA对3D传感器支持的两大挑战:
可用视频数据比3D感知数据要多的多,导致3D感知编码器的通用性,相比视觉感知编码器不太好。
3D感知编码器的规模和水平也不及视觉感知编码器。
对此,Waymo给出了一种潜在解决方案,可以用认真对齐后的视频数据预训练大规模3D感知编码器,能促进更好的跨模态协同,提高3D感知编码器的协同作用。
其次,即便目前只利用到了视觉数据,EMMA能处理的视频序列长度也有限,最多仅4个帧,这限制了模型的推理能力。
Waymo表示接下来会通过集成内存模块或扩展长序列能力的方式来解决。
最后还有工程问题,不管是用于闭环评估的仿真训练,还是车端实际落地部署,EMMA的计算成本都比较高。
总体来看,Waymo在端到端自动驾驶上做了可解释性的探索,有很多创新之处,EMMA表现出了不错的性能,但离上车还有很远一段距离。
Waymo近日在市场上顺风顺水,左手56亿美元到账,估值冲上450亿美元,右手周订单迅速突破15万,在旧金山每日拉客数已超过出租车。
当端到端正式上车,这只3000亿超级独角兽,是不是会在商业化上更上一层楼呢?
论文传统门:
https://arxiv.org/abs/2410.23262v1
— 联系作者 —
— 完 —
案例征集中
「2024Robotaxi年度玩家」
2024,Robotaxi再度被推向浪潮之巅。
因此,量子位智库联合智能车参考《Robotaxi2024年度报告》正式启动,并且为了更完整分享当前玩家的格局和进展,同时启动「Robotaxi年度玩家」征集。
欢迎扫码报名评选!参与和见证Robotaxi行业的全景展现。
— 完 —
【智能车参考】原创内容,未经账号授权,禁止随意转载。
点这里👇关注我,记得标星,么么哒~