CVPR 2024 | 理想汽车方案:场景数据检索方法处理长尾问题

文摘   2024-08-25 11:22   上海  

Arxiv:https://arxiv.org/html/2401.01065v1

本期概述

哈喽大家周末快乐!

本期再次介绍一篇理想汽车的方案~话说,理想最近的论文是真的多..以下是我们分享过的理想汽车自动驾驶方案!

理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法

今天分析的研究内容为:BEV-CLIP。一种用于自动驾驶复杂场景检索的多模态BEV检索方法。BEV-CLIP的研究创新点为:

  • 多模态检索:第一个结合BEV特征和LLM语义的多模态检索方法。

  • 知识图谱的集成:将知识图谱与LLM结合,以增强语言理解的泛化能力。

  • 共享多模态提示(SCP):引入了共享的多模态提示结构(SCP),能够在对比学习之前提供更好的特征表示。

所谓BEV检索是做任务呢?简单来说,就是根据文字,找出对应的实例对象BEV-CLIP结合了文本查询、图像检索和鸟瞰图(BEV)检索三个方面来处理自动驾驶场景中的多模态检索任务

PipeLine

BEV-CLIP的三个阶段。包括BEV和文本特征编码、共享跨模态提示符(SCP)、标题生成和检索。其中共享跨模态提示符(SCP)将BEV和语言特征聚合。

(1)BEV特征编码:采用了BEVFormer模型作为基线模型。在具体的检索任务中,冻结BEVFormer模型的所有参数,并直接使用其生成的特征进行下游的后处理和检索。

BEVFormer:https://arxiv.org/pdf/2203.17270。包含两个关键模块:空间注意力(Spatial Attention)和时间注意力(Temporal Attention)。BEVFormer能够聚合空间和时间信息,从多个视角准确描述可移动障碍物,从而生成包含全场景信息的BEV特征。
(2)知识图谱来增强文本描述:语义信息通常具有离散的特性。这使得仅依赖于原始的文本描述可能不足以全面表达场景的复杂性。为了增强文本表述,引入知识图谱中的非结构化信息。知识图谱通过捕捉场景中的关键实体及其关联关系,能够为文本描述提供额外的关联信息,从而增强文本特征的语义表达能力。

抽象了知识图,以建立感知实例、标签和动作之间的关联。

这里借鉴了TransE方法,基于平移距离建模(translational distance modelling)的知识图谱嵌入方法。每个三元组(主体-谓语-客体)的得分函数通过计算向量之间的距离来衡量关系的合理性。表示为

 

其中 分别表示主体、谓语和客体的嵌入向量,norm 通常是L1或L2范数。

(3)语义融合对输入的文本,以及知识图谱中提取与该文本相关的关键词嵌入。通过在文本中索引关键词,并将这些关键词与知识图谱中的节点嵌入连接起来,按照它们在文本中出现的顺序,将这些嵌入组合到一起。最终生成的语言嵌入不仅包含了原始文本和知识图谱的语义信息。

知识图谱编码嵌入、文本编码、以及两者融合的流程。左边为知识图谱的表述,使用KG embedding编码后,和文本编码(Text embedding)一起送入LLM,同时通过LoRA(Low-Rank Adaptation)分支进行微调。最后输出融合编码。

(4)共享跨模态提示 (Shared Cross-Modal Prompt, SCP) BEV和文本分支之间执行跨模态交互。利用这些跨模态提示将BEV特征和文本特征映射到同一个流形空间上,从而促进在两个分支中出现的发散模态信息的对齐。SCP的可学习参数被表示为一组序列化的提示向量 。BEV特征被压缩和重塑为一个特征嵌入序列 。对于每个提示向量 ,计算其与BEV特征序列中每个特征 的相似度 。通过求出这些相似度的最大值 ,得到该提示向量 与整个BEV特征序列的投影。

对于所有可学习的提示向量 ,采用同样的方法,计算BEV特征序列 在整个提示向量序列上的最大相似度集合 。接下来,通过softmax函数将 转换为SCP序列的权重 。将这些权重应用到SCP上,从而完成BEV特征与提示向量的融合。类似的操作也应用于文本特征分支。

为了进一步提升对齐效果,模型还引入了辅助任务——BEV标题生成(BEV Caption Generation)。通过轻量级的transformer生成与BEV样本对应的文本描述,作为对比学习的补充监督信号。
Experiments

使用BEV-CLIP模型进行BEV检索任务。采用了预训练的BEVFormer模型来提取BEV特征,并结合经过Llama2+LoRA微调的参数和知识图谱生成的嵌入作为文本特征。通过应用共享跨模态提示(SCP)将BEV和文本特征对齐,并使用对比学习和标题生成损失进行监督训练。
往期回顾
Co-Driver:使用Qwen-VL(通义千问)实现辅助驾驶
ECCV 2024 | 弃用低精地图?EP-BEV:跨视角地图定位方案
ECCV 2024 | GeMap:矢量化高精地图在线构建
百度智驾 | 跨模态匹配算法实现厘米级高精定位!
中科院&加州大学 | GenAD:生成式端到端自动驾驶框架

如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章