Arxiv:https://arxiv.org/html/2401.01065v1
本期概述
哈喽大家周末快乐!
本期再次介绍一篇理想汽车的方案~话说,理想最近的论文是真的多..以下是我们分享过的理想汽车自动驾驶方案!
理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法
今天分析的研究内容为:BEV-CLIP。一种用于自动驾驶复杂场景检索的多模态BEV检索方法。BEV-CLIP的研究创新点为:
多模态检索:第一个结合BEV特征和LLM语义的多模态检索方法。
知识图谱的集成:将知识图谱与LLM结合,以增强语言理解的泛化能力。
共享多模态提示(SCP):引入了共享的多模态提示结构(SCP),能够在对比学习之前提供更好的特征表示。
所谓BEV检索是做任务呢?简单来说,就是根据文字,找出对应的实例对象。BEV-CLIP结合了文本查询、图像检索和鸟瞰图(BEV)检索三个方面来处理自动驾驶场景中的多模态检索任务
PipeLine
BEV-CLIP的三个阶段。包括BEV和文本特征编码、共享跨模态提示符(SCP)、标题生成和检索。其中共享跨模态提示符(SCP)将BEV和语言特征聚合。
这里借鉴了TransE方法,基于平移距离建模(translational distance modelling)的知识图谱嵌入方法。每个三元组(主体-谓语-客体)的得分函数通过计算向量之间的距离来衡量关系的合理性。表示为
其中 和 分别表示主体、谓语和客体的嵌入向量,norm 通常是L1或L2范数。
(4)共享跨模态提示 (Shared Cross-Modal Prompt, SCP) :BEV和文本分支之间执行跨模态交互。利用这些跨模态提示将BEV特征和文本特征映射到同一个流形空间上,从而促进在两个分支中出现的发散模态信息的对齐。SCP的可学习参数被表示为一组序列化的提示向量 。BEV特征被压缩和重塑为一个特征嵌入序列 。对于每个提示向量 ,计算其与BEV特征序列中每个特征 的相似度 。通过求出这些相似度的最大值 ,得到该提示向量 与整个BEV特征序列的投影。
对于所有可学习的提示向量 ,采用同样的方法,计算BEV特征序列 在整个提示向量序列上的最大相似度集合 。接下来,通过softmax函数将 转换为SCP序列的权重 。将这些权重应用到SCP上,从而完成BEV特征与提示向量的融合。类似的操作也应用于文本特征分支。