基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

文摘 2024-11-01 00:01 上海

点击下方卡片，关注“AI生成未来”

论文名：EMMA: End-to-End Multimodal Modelfor Autonomous Driving

论文链接：https://arxiv.org/pdf/2410.23262.pdf

引言

近年来，自动驾驶技术取得了显著进展。为了使自动驾驶车辆成为无处不在的交通形式，它们必须导航越来越复杂的现实世界场景，这些场景需要理解丰富的场景上下文以及复杂的推理和决策。端到端自动驾驶系统最近作为潜在解决方案出现，直接从传感器数据中学习生成驾驶动作。这种方法消除了模块之间需要符号接口的需求，并允许从原始传感器输入中联合优化驾驶目标。然而，这些系统通常是为特定驾驶任务专门设计的，并在有限的训练数据集上训练，阻碍了它们泛化到罕见或新颖场景的能力。多模态大型语言模型（MLLMs）为自动驾驶中的AI提供了一个有前景的新范式，可能有助于解决这些挑战。

简介

我们介绍了EMMA，一个端到端的自动驾驶多模态模型。基于多模态大型语言模型的基础，EMMA直接将原始相机传感器数据映射到各种特定于驾驶的输出中，包括规划器轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入（例如导航指令和自我车辆状态）和输出（例如轨迹和3D位置）表示为自然语言文本，最大化了预训练大型语言模型的世界知识效用。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务，并使用特定于任务的提示生成每个任务的输出。实证上，我们通过实现在nuScenes上的运动规划达到最先进性能以及在Waymo开放运动数据集（WOMD）上的竞争性结果来证明EMMA的有效性。EMMA还在Waymo开放数据集（WOD）上的相机主导的3D物体检测上取得了有竞争力的结果。我们展示了与规划器轨迹、物体检测和道路图任务共同训练EMMA在所有三个领域都产生了改进，突出了EMMA作为自动驾驶应用通用模型的潜力。然而，EMMA也存在一些局限性：它只能处理少量的图像帧，没有集成像激光雷达或雷达这样的精确3D感测方式，而且在计算上也很昂贵。我们希望我们的结果能够激发进一步的研究，以减轻这些问题，并推动自动驾驶模型架构的进一步发展。

方法与模型

EMMA建立在Gemini之上，这是一个由谷歌开发的MLLM家族。我们利用自回归的Gemini模型，这些模型经过训练以处理交织的文本和视觉输入，以产生文本输出。

我们将自动驾驶任务映射到基于Gemini的EMMA公式中。所有传感器数据都表示为缝纫图像或视频作为V；所有路由器命令、驾驶上下文和特定任务的提示都表示为T；所有输出任务都呈现为语言输出O。一个挑战是许多输入和输出需要捕获3D世界坐标，例如运动规划中的航点BEV（鸟瞰视图）位置(x, y)以及3D盒子的位置和大小。我们选择文本表示，以便所有任务都能共享相同的统一语言表示空间，并且它们可以最大限度地重用预训练权重中的知识，即使文本呈现可能产生的标记数超过专门的标记化。

1、端到端运动规划

EMMA采用统一的、端到端的训练模型，直接从传感器数据生成自动驾驶车辆的未来轨迹。然后，这些生成的轨迹被转换为特定于车辆的控制动作，如加速和转向，用于自动驾驶车辆。EMMA的端到端方法旨在模拟人类驾驶行为，重点关注两个关键方面：（1）首先，使用导航系统（例如谷歌地图）进行路线规划和意图确定；（2）其次，利用过去的行为来确保在时间上平稳一致的驾驶。

我们的模型包含三个关键输入，以与这些人类驾驶行为保持一致：

（1）周围视图摄像头视频（V）：提供全面的环境信息。

（2）高级意图命令（Tintent）：源自路由器，包括指令如“直行”、“左转”、“右转”等。

（3）历史自我状态集（Tego）：以鸟瞰视角（BEV）空间的一组航点坐标表示，Tego = {(xt, yt)}−Tht=−1 对于Th时间戳。所有航点坐标都以纯文本形式表示，不使用专门的标记。这也可以扩展以包括更高阶的自我状态，如速度和加速度。

模型生成未来轨迹，用于运动规划，表示为同一BEV空间中本车未来的轨迹航点集合，其中所有输出航点也以纯文本形式表示。

2、使用链式思维推理进行规划

链式思维提示[Wei等人，2022]是MLLM中的一个强大工具，它增强了推理能力并提高了可解释性。在EMMA中，我们通过要求模型在预测最终的未来轨迹航点Otrajectory的同时，阐述其决策理由Orationale，将链式思维推理整合到端到端规划器轨迹生成中。

我们按层次结构构建驾驶理由，从粗粒度信息到细粒度信息分为四种类型：

（1）场景描述广泛描述了驾驶场景，包括天气、一天中的时间、交通情况和道路状况。

（2）关键对象是可能影响本车驾驶行为的在路上实体，我们需要模型识别它们的精确3D/BEV坐标。

（3）关键对象的行为描述描述了被识别关键对象的当前状态和意图。

（4）元驾驶决策包括12个高级驾驶决策类别，总结了根据先前观察给出的驾驶计划。

3、EMMA Generalist

虽然端到端运动规划是最终的核心任务，但一个全面的自动驾驶系统需要额外的能力。具体来说，它必须感知三维世界并识别周围的物体、道路图和交通状况。为了实现这一目标，我们将EMMA构建为一个能够通过训练混合体处理多个驾驶任务的Generalist模型。

我们的视觉语言框架将所有非传感器输入和输出表示为纯文本，提供了必要的灵活性，以纳入许多其他驾驶任务。我们采用指令微调这一在大型语言模型（LLMs）中广泛采用的成熟方法，共同训练所有任务，并结合输入方程式1中的特定任务提示。我们将这些任务组织成三个主要类别：空间推理、道路图估计和场景理解。

4、Generalist Training

我们的统一视觉-语言公式使得多个任务能够与单一模型同时训练，在推理时通过任务提示Ttask的简单变化进行特定任务的预测。训练过程既直接又灵活。
对于每个任务，我们构建一个包含|Dtask|个训练样本的数据集Dtask。在每次训练迭代中，我们从可用的数据集中随机抽取一批样本，选择特定数据集的样本概率与数据集大小成正比：即|Dtask|/t |Dt|。

实验与结果

实验细节

我们强调了用于验证EMMA模型有效性的实验。我们利用了Gemini团队Google发布的Gemini 1.0 Nano-1的最小尺寸，即所有实验都是使用Gemini 1.0 Nano-1进行的。我们首先在两个公共数据集上端到端规划器轨迹生成的结果。接下来，我们在内部数据集上进行额外的实验，研究思维链和数据规模对性能的影响。

定量实验结果

可视化结果

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510560&idx=2&sn=14e0b05337cff0eb4013ff459c5b7f53

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉