六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）

科技 2024-12-20 13:31 北京

写在前面 & 笔者的个人理解

近年来，视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型，使模型不仅能理解视觉输入并生成文本回答，更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性，现有的自动驾驶模型和数据往往专注于单一场景和任务。虽然这些方法表现出了显著的性能，但模型的适用性局限于特定场景和任务，比如特定的输入类型和数据集特定的任务。一方面，我们注意到不同数据集的收集方法是由其特定任务决定的。例如，专注于极端情况和特殊物体感知的数据集只需要前视图图像，而与车辆行为预测和自车决策相关的任务则需要多视角甚至视频的输入。另一方面，每个数据集都聚焦于特定子任务。因此，在单一数据集上训练的专有模型缺乏处理现实世界中复杂多样任务所需的通用能力和迁移至新场景新任务的泛化能力。为了解决这些问题，本文提出了DriveMM，一种通用的大型多模态模型，旨在处理多种数据输入，如图像和多视角视频，同时执行广泛的自动驾驶任务，包括感知、预测和决策。

总结来说，本文的主要贡献如下：

提出了一种新型的一体化多模态大模型DriveMM，它具有执行各种AD任务的通用能力和有效转移到新数据集的泛化能力。
介绍了评估自动驾驶LMM的综合基准，其中包括六个公共数据集、四种输入类型和十三个具有挑战性的任务。据我们所知，这是首次使用多个基准来评估自动驾驶LLM。
提出了一个大模型原则，用于对不同的多模态数据和AD数据进行预训练和微调。DriveMM展示了最先进的性能，并在所有评估的基准测试中始终优于在单个数据集上训练的模型。

这里也推荐下平台最新推出的《多模态大模型与自动驾驶实战课程》，目前已经正式开课，欢迎加入学习~

拼团优惠立减150！

DriveMM方法详解

概览

本文提出的DriveMM是一种一体化的LMM，旨在有效地处理AD中的各种驾驶数据和任务。形式上，给定车辆传感器捕获的视觉信号Xv和用户指令Xt，DriveMM F（·）提供了与驾驶相关的分析和建议：

Xv可以表示各种数据格式，包括单目、环视图像或LiDAR捕获的图像、多图像、视频和多视频，而Xt则包含与感知、预测、推理、决策等有关的问题。通过整合不同的数据和任务，DriveMM可以在广泛的AD视觉语言数据上进行训练，从而在不同的数据集和任务之间实现相互改进。此外，一旦经过训练，DriveMM可以有效地部署在各种现实世界的AD场景中，例如不同的相机和雷达系统配置，以及各种AD任务。

在接下来的部分中，我们首先描述DriveMM的架构，它能够处理不同传感器捕获的多种类型的数据。为了促进模型对AD场景的理解，我们收集了具有多种数据格式和任务的不同数据集，然后增强和标准化它们的问答对，以加强不同数据集之间的协作。为了在各种数据集和任务上有效地训练DriveMM，我们采用了一种课程学习方法来逐步提高模型的能力。

Model Architecture

我们的目标是设计一个高效的模型架构，可以同步处理广告场景中的单幅图像、多幅图像、单视图视频和多视图视频。如图2所示，DriveMM遵循了LLaVA等主要LMM的设计。它由三个部分组成：视觉编码器Fe（·）、投影仪Fp（·）和LLM Fl（·）。

视觉编码器SigLIP：

之后，投影仪将图像特征投影到单词嵌入空间中：

基于视觉标记Hv和用户指令Xt，LLM逐步计算目标单词的概率：

视角感知提示。在方程式（4）中，典型的LMM[2,26]会使LLM输入的视觉特征变平，无法区分视角（如前视图或后视图）和格式（如图像或视频）。为了解决这个问题，我们提出了一种感知视角的提示。如表2所示，我们使用不同的占位符（即image和video）进行图像和视频输入，其中占位符在输入LLM之前将被相应的令牌替换。我们还为具有不同视角的图像/视频分配了数字标签，并在文中解释了每种图像/视频的具体相机或激光雷达。为了提高计算效率，我们对视频特征Hv应用2×2的空间池，然后将它们展平为视觉标记。DriveMM结合了视角和数据格式的信息，可以更好地解释复杂的交通状况，识别多个对象及其空间关系，并做出更明智的决策。

数据

在LMM的训练中，数据在启用和激活LLM理解多模态信息的能力方面发挥着至关重要的作用。为了提高DriveMM在多模态AD场景中的理解和推理能力，我们构建了三个不同的数据集：传统多模态数据、感知数据和自动驾驶数据。

Conventional Multimodal Data

最近的研究表明，随着数据量的增加，LMM可以实现更高的性能。然而，与在线可用的丰富图像文本数据相比，AD图像文本数据明显有限。为了提高DriveMM的性能，我们使用广泛的多模态数据预训练了一个基础模型，从而能够使用单幅图像、多幅图像和视频进行推理。

具体来说，我们构建了一个多模态数据集，其中包括图像-文本对和各种视觉指令调整数据。图像-文本对的目标是对齐视觉编码器和LLM，使模型能够对图像有基本的理解。我们使用了多个数据集，包括LCS-558K、COCO118K、CC3M。为了增强模型处理各种传感器配置（如单视图和多视图相机）中的视觉数据的能力，我们利用OneVision数据中的视觉指令调整数据，包括图像、多图像和视频。

Perception Data

为了使DriveMM具备AD感知能力，我们创建了一个全面的基础数据集，包括各种数据格式。对于单幅图像数据，我们使用COCO和Object365数据集。我们从图像中随机选择一个类别，并使用基础提示（例如，“检测图像中的所有<category>”）来提示模型检测该类别中的所有对象。我们用边界框[xmin，ymin，xmax，ymax]或区域中心[xcenter，ycenter]表示对象的位置。基于图像的大小，x和y值在0到100的范围内进行归一化。对于多视图图像和多视图视频，我们采用nuScenes[3]数据集。为了给模型注入空间意识，我们希望它不仅能预测物体边界框，还能估计相机的视角。因此，我们用[cam，xmin，ymin，xmax，ymax]或[cam，xcenter，ycenter]表示对象的位置，其中cam表示相机视角，如“cam BACK”。图3左下角展示了感知数据的一个示例。

Autonomous Driving Data

在这里，我们收集了不同的数据集来训练一个一体化的LMM，该LMM可以同步处理不同场景中的各种AD任务。具体来说，我们使用了六个自动驾驶数据集：CODA-LM、MAPLM、DriveLM、LingoQA、OmniDrive和NuInstruct。表1显示了六个数据集的详细描述。这些数据集包括各种传感器配置，如摄像头和激光雷达，以及不同的AD任务，包括感知、预测和规划。值得一提的是，不同的数据集可能会表现出不同的问题模态。为了促进协作增强，我们对问答对进行了如下扩充和标准化。问答增强。一些数据集仅限于一组固定的模板。例如，CODA-LM仅包含三个问题模板，而MAPLM则使用了五个。这阻碍了模型推广的潜力。为了克服这一局限性，我们使用GPT-4o-mini来增强问答对并增加其多样性。此外，很大一部分问题是开放式的。为了进一步增强多样性，我们将一些开放式问题随机转换为多项选择题。图3右下角展示了一个增强示例。

问答标准化。不同的数据集可能在问答风格上表现出不一致。例如，DriveLM使用“<c6，CAM BACK，1088.3，497.5>”来表示一个对象，其中“c6”表示类ID。相比之下，NuInstruct使用“<car>[c6，139，343，1511，900]”的格式，其中“c6”表示相机ID。为了确保跨数据集的兼容性，我们标准化了对象的表示并明确指定了表示格式。此外，为了适应不同大小的图像中的边界框，我们根据图像的大小将边界框的坐标标准化为0到100的范围。例如，对于NuInstruct数据集，我们将对象重新表示为“<car>[CAM BACK RIGHT，8.688，38.111，94.438，100.000]”，并在问题末尾添加格式化指令，如图3右下角所示。

训练

在本节中，我们将介绍一种课程学习方法，以逐步提高模型在各种AD数据和任务上的性能，从而形成一体化的自动驾驶模型DriveMM。具体来说，我们逐渐增加数据的复杂性，从单个图像到多个视频，以及从图像字幕到驾驶推理的任务复杂性，以训练DriveMM。如图3所示，训练过程分为四个步骤：

第一阶段：语言图像对齐。这一阶段的目标是为预训练的法学硕士提供多模态理解的基本能力。为了实现这一点，我们训练投影仪与LLM的单词嵌入空间对齐。我们冻结了视觉编码器和LLM，只优化了LCS-558K上的投影仪。

第二阶段：单幅图像预训练。在这个阶段，我们通过集体优化整个模型来进一步增强模型理解单个图像的能力。我们使用所概述的图像-文本对并优化模型的所有参数，以提高LLM对多模态任务的适用性。

第三阶段：多能力预训练。为了获得训练AD系统的稳健基础模型，我们增强了模型在不同场景下的推理和感知能力。为此，我们利用所描述的视觉指令调优数据来增强模型，以推理基本的视觉元素。此外，我们使用所描述的感知数据来促进模型的感知能力。值得注意的是，训练数据包括多种数据格式，包括单图像、单视频、多视图图像和多视图视频。通过为模型配备处理各种数据和任务的能力，我们为训练一体化AD模型奠定了基础。

第四阶段：Driving微调。为了使DriveMM能够处理广泛的AD任务，我们在不同的驾驶数据集上进一步微调了模型。具体来说，我们利用了六个增强和标准化的自动驾驶数据集。在这个阶段，我们优化了模型的所有参数。一旦经过训练，所提出的一体化DriveMM可以有效地部署在各种AD场景中，例如不同的摄像头和雷达系统配置，以及各种AD任务。

实验结果

结论

本文提出了一种一体化的大型多模态自动驾驶模型DriveMM，它可以处理各种类型的数据，并在现实世界中执行多种驾驶任务，表现出出色的通用性和鲁棒性。据我们所知，我们是第一个开发AD综合模型并在各种AD场景中跨多个数据集评估模型的公司。通过增强和标准化几个开源数据集并设计与数据相关的提示，我们从头开始对模型进行多步预训练和微调。DriveMM在现实场景中的各种数据和任务中实现了最先进的性能。

参考

[1] DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

arXiv每日学术速递2024.12.10

TPAMI 2024 | 北大提出实用、紧致的智能图像压缩感知技术，代码已开源！

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

Pattern Recognition | 同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

快速学会登上nature的热门算法，LSTM！

arXiv每日学术速递2024.12.9

登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！数学博士的跨界花活儿火了

论文一起读 | 面向点云流时空建模的4维Transformer点云网络

CogVLM：预训练语言模型的视觉专家

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

VeCLIP：通过视觉增强的字幕改进CLIP训练

扩散模型部署有新解，直接量化为4bit？韩松团队等提出SVDQuant：16GB笔记本上加速8.7 倍

独自一人，怒发顶会！

arXiv每日学术速递2024.12.6

MetaTransformer：一种用于多模态学习的统一框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉