新加坡国立大学/清华大学提出 LaVida Drive:用于自动驾驶的视觉-文本交互VLM,具有令牌选择、恢复和增强功能 !

文摘   2024-12-20 10:27   中国香港  

自动驾驶之星




点击上方蓝字关注 自动驾驶之星

点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

视觉语言模型(VLMs)的最新进展使其在自动驾驶的视觉问答(VQA)中变得至关重要,实现了自然的人机交互。然而,现有方法在动态驾驶环境中往往表现不佳,因为它们通常专注于静态图像或视频,并依赖降采样以管理计算成本。这导致关键细节的丢失,以及空间和时间信息的有效整合的困难,这对细粒度感知和时间连贯性是有效决策的关键。

为了解决这些问题,作者提出了一种名为LaVida Drive的新颖且高效的VQA框架。LaVida Drive在保持高分辨率输入的同时,将时间数据无缝集成。

它通过保留高分辨率数据以处理复杂的细节,并使用低分辨率输入进行时间分析以关注与运动相关的特征,从而提高计算效率。作者的方法实现了168倍的 Token 压缩,同时达到最佳性能,这是传统方法的重大改进。

LaVida Drive的核心由两个模块组成: Query 感知的 Token 选择模块和空间-时间 Token 恢复与增强模块。前者根据输入 Query 与语义对齐动态选择最相关的视觉 Token ,从而将 Token 数量从高分辨率空间输入减少。

后者确保了空间和时间信息之间的平滑和连贯交互,在跨帧之间保持上下文连续性。在各种自动驾驶VQA基准测试上的广泛实验表明,LaVida Drive显著减少了视觉 Token ,提高了效率,并改进了整体性能。

1 Introduction

近年来,大规模预训练的先进技术使VLMs成为自动驾驶领域中的关键工具,通过自然语言实现了直观的人机交互。VLMs有助于视觉和语言信息的无缝集成,使车辆能够实时理解和回应复杂的 Query ,快速且显著地提高了系统的整体性能和可靠性。

尽管取得了显著进展,现有的方法主要侧重于静态图像或视频,并依赖于低分辨率输入以降低计算成本,这导致了关键的高分辨率细节的丢失以及空间和时间信息的有效集成困难。特别是在动态驾驶环境中,下采样会损害细粒度的感知和时间连贯性,从而阻碍有效的决策制定。在静态感知和运动检测的高分辨率、多帧设置中,效率和准确性的平衡显著增加推理成本,这在VLM开发中构成了重大挑战。

为了应对这些挑战,作者提出了LaVida Drive,这是一个创新性的视觉问答(VQA)框架,旨在在动态驾驶环境中支持高分辨率视觉输入的细粒度感知,同时集成时间信息。具体而言,在空间处理方面,该框架保留高分辨率输入以捕捉丰富的细节,并在运动相关特征上使用较低分辨率的处理,从而在不影响视觉准确性的前提下降低计算负载。然而,在多个视点上维持高分辨率空间输入会极大地增加 Token 的数量,导致视觉语言模型(VLMs)的推理开销显著增加。

为了解决这个问题,作者引入了_Query-aware Token Selection_机制,该机制根据语义内容动态选择与输入 Query 高度相关的视觉 Token ,实现自适应 Token 过滤,从而显著减轻计算负担[11, 26]。由于 Token 选择会破坏空间连贯性并损害 Token 之间的上下文关系,作者引入了一个_Spatial-temporal Token Enhancement_模块,通过使用跨注意力机制实现帧间一致的信息流,确保不同空间和时间上下文之间的连贯性,实现平滑、连贯的多帧信息传递。

作者在多个自动驾驶视觉问答(VQA)基准测试上验证了LaVida Drive,结果显示在图像-文本对齐和多模态信息处理方面取得了显著的改进。作者的模型将视觉 Token 减少了50%至84%,在提高推理效率的同时保持了性能。

主要贡献包括:

  1. 提出一种新颖高效的可视问答框架,该框架将时间数据无缝集成到高分辨率空间输入中,从而提高计算效率和详细视觉感知。
  2. 提出一种新颖的 Query 感知 Token 选择机制,该机制能够动态地提取关键信息用于问答,并展示其在平衡计算成本和性能方面的有效性。
  3. 提出一个结合多模态和多尺度信息的 Token 增强机制,确保空间和时间信息之间的平滑、连贯交互,并保留跨多个帧的上下文连续性。

2 Related Works

近年来,自动驾驶领域的自主驾驶AI取得了突破性的进展,这得益于视觉和语言模型的结合,从而在感知和决策能力上都有所提升。

文献可以分为两大主要领域:用于自动驾驶的视觉型语言模型和自动驾驶中的问答系统。

Vision-based LLMs for Autonomous Driving

视觉和语言模型的集成在增强自主车辆的感知能力方面展现出巨大的潜力,使它们能够更好地理解和导航复杂的驾驶环境。在这个领域早期的研究包括基于CLIP的方法[16],它们将视觉表示与文本描述配对,从而丰富地理解了车辆周围的环境。最近的研究,如[31]和[28]提出的,将视觉和文本输入的大型多模态模型用于支持决策。这些模型在大规模数据集上进行预训练,并在场景解释和预测动态交通场景中的车辆行为等方面取得了改进。

基于 Transformer 模型的视觉语言融合也推动了自动驾驶领域的积极发展。例如,[5] 提出了一种结合深度视觉 Transformer 和大规模语言模型的模型,通过增强车辆生成复杂驾驶计划的能力,提高了决策能力。这些模型在处理实时视觉输入的同时,利用预训练知识来解释高级线索,如道路状况和交通规则。最近,[29] 展示了多模态语言模型的推理能力,在端到端自动驾驶框架中进行推理,使车辆能够处理需要视觉和语言推理的全新驾驶情况。

此外,VLMs的出现为提升自动驾驶系统开辟了新的途径。例如,[13]提出了NuScenes-QA,这是一项针对自动驾驶场景的VQA(视觉问答)基准测试,它解决了多模态数据和实时采集的复杂性。同样地,[19]提出了一种基于VLMs的方法DriveLM,该方法将网络规模的数据集成起来,以增强对人类用户的泛化和互动性。这些进展突显了VLMs在解决自动驾驶面临的精细挑战方面的潜力,例如理解动态环境以及实时做出明智的决策。

Question Answering Systems for Autonomous Driving

QA系统在提高人与车辆交互和促进自主决策方面发挥了重要作用。在自动驾驶中,这些系统帮助车辆处理自然语言 Query ,并根据视觉输入和现有知识提供情境感知答案。例如,[27]开发了一种结合卷积神经网络和语言模型的视觉QA系统,使自动驾驶车辆能够回答有关附近物体和道路状况的问题。该系统允许乘客实时提出问题,并收到准确、针对情境的回答。

进一步发展了情境问答[4],显著提高了车辆解析复杂驾驶场景的能力。通过利用多模态输入,这些系统能够提供更准确的交通流量、行人行动或车辆接近等问题的答案。此外,近年来基于对话的问答系统也取得了进展,使驾驶员和车辆之间的互动更加动态。例如,[8] 引入了一个对话式问答框架,其中车辆可以回答问题并参与多轮对话,根据不断变化的交通状况和用户偏好调整他们的回答。这使得乘客和车辆之间的沟通更加顺畅,提高了整体驾驶体验和安全性。

[23] 最近的研究探索了将基于规则的推理与大规模语言模型相结合的混合模型,使车辆在复杂环境中的实时决策过程更准确地模拟人类般的推理。他们的研究侧重于在遇到未预见的障碍物或行人的模糊驾驶情况下提供准确且安全的驾驶建议。此外,将 LLMs 集成到 QA 系统中展示出巨大的潜力。例如,[3] 提出了一种独特的目标级多模态 LLM 架构,将向量化的数值模态与预训练的 LLM 相结合,以提高驾驶情境下的上下文理解。这种方法不仅增强了驾驶行为的可解释性,还展示了与传统行为克隆方法相比,基于 LLM 的驾驶行为生成的潜力。

3 Method

Architecture Overview

如图2所示,LaVida Drive架构包含三个核心组件:多模态编码集群、 Query 感知 Token 选择模块和空间-时间 Token 增强模块。该模型处理来自三个模态的输入:自动驾驶车辆的多视角摄像头图像数据、视频数据以及用户提供的自然语言指令。与先前的方法不同,作者采用多个编码器来处理各种输入模态,形成一个多模态编码集群,以更好地满足每个数据源的独特需求。所有编码器都被冻结。具体而言,每个编码器处理的数据按照预定义的格式:

文本编码器:作者的文本编码器采用了CLIP文本编码器,利用大规模文本-图像对比学习获得的强大的特征提取能力。对于包含个 Token 的输入文本序列,编码器处理每个 Token Embedding ,并将整个序列映射到语义空间。文本编码器的输出是一个形状为的矩阵,表示为:

图像编码器也使用了CLIP视觉编码器,基本分辨率是224x224像素。这个编码器可以将视觉数据高效地映射到丰富的语义空间,并分为_主分支_和_支持分支_,每个分支针对图像表示的不同方面进行了优化。

图像编码器主分支:对于主分支,输入图像的大小为。首先,将输入图像分割成个大小为的 Patch 。每个 Patch 都被扁平成一个长度为的向量,形成一个 Patch 序列,维度为。主分支从CLIP视觉编码器的最末层生成形状为的嵌入,表示为:

图像编码支持分支:为了补充主分支中由于patch分割引起的上下文损失,支持分支直接处理降采样后的整个图像,其大小为。支持分支还从CLIP视觉编码器的最后一级生成形状为的嵌入,表示为:

视频编码器: 视频编码器基于TimeSformer模型,对帧序列进行时间建模。给定输入序列,其中帧,每帧具有空间维,编码器捕获帧间依赖关系以生成时间表示。输出是一个大小为的嵌入序列,表示为:

接下来,作者使用 Query 感知 Token 选择模块,该模块处理图像编码器与文本编码器输出的 Token 以生成 Token  Level 的相似度矩阵,其中表示图像 Token 的数量,表示文本 Token 的数量。通过利用空间语义相似性,该模块识别出与用户 Query 最相关的视觉 Token ,从而在保留高质量 Token 的同时减少视觉 Token 的数量。最后,时空 Token 增强模块利用视频编码器的输出和图像编码器的多帧辅助信息通过交叉注意力机制恢复和增强 Token 。该模块的目的是在 Token 选择中恢复丢失的上下文,并聚合时间信息,而不增加额外的 Token 数量,如第3.3节所述。

作者首先计算归一化相似度矩阵:

对于每个单词,作者都计算其与所有其他单词的相似度,并将结果归一化。具体而言,作者将每个单词的相似度除以其与所有其他单词相似度的平均值。这样,相似度矩阵的每个元素都是介于0和1之间的值,它们表示单词之间的相似程度。

接下来,作者将相似度矩阵转换为对角矩阵,其中对角线上的元素表示单词之间的最相似关系。

最后,作者计算对角线上的元素的总和,并将其作为整个词向量的相似度。这个相似度值表示词向量与整个语料库中的词向量之间的相似程度。

然后,它被用于选择最相关的 图像 Token ,其中 表示采样阈值。更高的阈值选择更多的视觉 Token ,允许通过调整下采样比例 来控制视觉 Token 的数量。实验部分在不同的阈值下比较性能,突出它们作为总 Token 数量的一部分的影响。以下是该算法的步骤:

为了进一步压缩 Token ,作者使用MLP进行信息聚合,生成一个 Query 感知紧凑 Token 表示。在实验部分,作者展示了模型在不同选择和MLP压缩因子组合下的性能,这些组合在一个固定的总体压缩比下保持不变。结果表明,平衡选择因子与MLP压缩率可以实现更高的模型性能,同时保持最少的 Token 数量。

Spatial-temporal Token Enhancement

空间-时间 Token 增强模块旨在解决在处理多帧数据时所遇到的情景中断和高计算开销问题。该模块包括一个通用的** Token 方式自注意力模块**,然后具体应用于两种配置:空间增强和时间增强。

首先,作者提出了Token-wise Attention Module,这是实现空间和时间增强的基础。如图3所示,该模块通过使 Query 感知 Token 选择模块选中的 Token 与图像或视频编码器提供的上下文 Token 之间建立交互,从而增强 Token 上下文。注意力机制的定义如下:

当 Query (Query)的 Token 表示从 Query 感知 Token 选择模块中提取时,(键)和(值)则来源于编码器输出。这种机制使得每个 Query  Token 都能够从上下文中吸收相关的信息。


4 Experiments

在本节中,作者对Lavida Drive进行了广泛的实验,并分析了结果,包括定量和定性评估。最后,作者进行了消融实验以验证每个模块的有效性。

Setup

基于EM-VLM4AD [6]的协议,作者在DriveLM [19]数据集上使用相同的训练、验证和测试划分进行训练,以评估泛化能力。此外,作者在NusceneQA [14]数据集上进行测试,以比较基于检测的传统方法。DriveLM训练集包括约340,184个独特的多视图问答对,其中18,899对用于测试和验证。NusceneQA训练和测试集分别包含459,941和83,337个问题-答案对。

评价指标: 为了确保公平性和可重复性,在评估DriveLM数据集时,作者使用与EM-VLM4AD相同的指标,从四个角度评估模型性能:BLEU-4 [12], ROUGE-L [10], METEOR [1], 和CIDEr [21]。对于NusceneQA数据集,作者遵循数据集作者提出的指标,评估四个 Query 格式类别(存在、目标、状态和比较)的准确性。

作者将CLIP文本和视觉编码器分别作为文本和图像编码器,并使用TimeSformer[2]作为多帧输入处理的视频编码器。所使用的基语言模型是T5-medium[17]。

实现细节:每个模型都在单个NVIDIA A100 Tensor Core GPU上进行训练。图像编码器、文本编码器和视频编码器被冻结,而其他参数,包括更大模型中的参数,以1e-4的初始学习率进行训练,以0.05的重量衰减。批量大小设置为4。每个模型在训练集上训练12个周期,每个图像被分成4x7的 patch,大小为224x224。

Overall Performance

定量比较:在表1中,作者首先在DriveLM数据集上与先前的研究工作进行比较,包括EM-VLM4AD [6]和DriveLM-Agent [19]。Lavida Drive在总体性能指标上超过了作者的 Baseline 方法,尽管DriveLM-Agent在BLEU-4得分上略高于作者的模型。然而,值得注意的是,DriveLM-Agent的参数量显著更大,达到3.96B。接下来,作者在作者的模型上对预训练模型进行微调,取得了竞争力的结果。

定性对比:如图4所示,作者呈现了LaVida Drive在不同任务上的性能。为了分析该模型根据文本 Query 对多视图图像输入的动态感知,作者可视化了LaVida Drive在不同场景中选择的 Token 。分析表明,模型根据如“汽车”和“行人”等关键词适当地选择最相关的 Token 。这一过程类似于人类在驾驶过程中进行推理的过程,其中首先过滤相关信息,然后得出结论。在模型输入之前进行的动态 Token 选择强调了系统的可靠性和可解释性。

Ablation Studies

为了验证作者模型中每个模块的有效性,作者设计了一系列的消融研究,主要 注意力模块 的选择和压缩比例,模型组件以及输入类型。

选择和压缩比例消融: 作者将整体压缩比例固定为168,并测试了各种选择和MLP压缩比例的组合,以评估它们对模型性能的影响。如表2所示,最初作者仅使用MLP对 Token 进行压缩,而没有选择,结果不尽如人意。然后,作者逐渐增加选择比例,同时减少压缩比例,观察到在选择比例为2时,性能达到峰值,之后性能逐渐下降。最后,作者仅通过选择(没有MLP压缩)将 Token 减少168倍,导致性能显著下降。

这些结果表明,过度的冗余和无关信息会阻碍VLM的训练和推理。然而,过度减少 Token 选择会导致有价值的信息的丢失。因此,平衡选择因子和MLP压缩比对于实现更高的模型性能和更少的 Token 选择至关重要。

**分组件的消融分析:表3展示了作者方法的分组件实验结果。首先,作者使用图像编码器产生的224×224降采样特征图作为低分辨率视觉表示,生成49×6视觉 Token ,作为基准。接下来,作者用高分辨率的224×224块替换简单的降采样。这种方法将性能提高+4.0%,+2.5%,+1.7%,和+0.9%,但增加了 Token 开销。为了解决这个问题,作者首先应用一个MLP层对 Token 进行降采样,将其数量减少到49;然而,这导致了-1.4 -0.5%,-1.4%,和-0.9%的性能下降。通过用作者提出的 Token 选择模块替换MLP层,作者有效地识别出了最相关的 Token ,从而带来了+2.7%,+0.5%,+0.7%,和+0.6%的性能提升。最后,将 Token 恢复和 Token 增强方法结合使用,分别实现了+0.6%,+1.0%,+0.9%,和+0.6%的进一步改进,同时保持了 Token 数量。

输入类型消融: 为了验证作者的算法在输入数据丢失在复杂或恶劣条件下的鲁棒性,作者测试了不同的输入配置:单帧多视图,多帧单视图和单帧单视图。通过分析在移除完整多视多帧数据的一部分后,模型的性能,作者可以评估模型的鲁棒性以及多帧和多视数据对其性能的影响。如表4所示,在作者的模型在移除部分数据后,仍然保持了相对良好的性能。尽管在单帧单视图数据集上的性能出现了显著的崩溃,但它仍然超过了作者的 Baseline 。

5 Conclusion

在这项工作中,我们介绍了LaVida Drive,这是一个用于自动驾驶中视觉问答(VQA)的新框架,它有效地将高分辨率空间感知与时间动态相结合。

通过利用查询感知的标记选择和空间-时间标记增强,我们的方法减少了计算开销,同时没有牺牲细粒度的视觉细节,使得通过选择性处理相关的详细视觉线索来实现更高效的推理,并确保了跨帧的信息流连贯性。

LaVida Drive为自动驾驶中的实时VQA系统提供了一个有前景的框架,平衡了计算效率与详细感知。它有效地整合了空间和时间信息,为处理复杂、动态驾驶环境的智能系统奠定了基础。

参考文献

[0]. LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement.

知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。









知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!


自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章