CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

文摘 2024-08-25 11:22 上海

Arxiv：https://arxiv.org/html/2401.01065v1

本期概述

哈喽大家周末快乐！

本期再次介绍一篇理想汽车的方案~话说，理想最近的论文是真的多．．以下是我们分享过的理想汽车自动驾驶方案！

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

今天分析的研究内容为：BEV-CLIP。一种用于自动驾驶复杂场景检索的多模态BEV检索方法。BEV-CLIP的研究创新点为：

多模态检索：第一个结合BEV特征和LLM语义的多模态检索方法。
知识图谱的集成：将知识图谱与LLM结合，以增强语言理解的泛化能力。
共享多模态提示（SCP）：引入了共享的多模态提示结构（SCP），能够在对比学习之前提供更好的特征表示。

所谓BEV检索是做任务呢?简单来说,就是根据文字,找出对应的实例对象。BEV-CLIP结合了文本查询、图像检索和鸟瞰图（BEV）检索三个方面来处理自动驾驶场景中的多模态检索任务

PipeLine

BEV-CLIP的三个阶段。包括BEV和文本特征编码、共享跨模态提示符（SCP）、标题生成和检索。其中共享跨模态提示符（SCP）将BEV和语言特征聚合。

（1）BEV特征编码：采用了BEVFormer模型作为基线模型。在具体的检索任务中，冻结BEVFormer模型的所有参数，并直接使用其生成的特征进行下游的后处理和检索。

BEVFormer：https://arxiv.org/pdf/2203.17270。包含两个关键模块：空间注意力（Spatial Attention）和时间注意力（Temporal Attention）。BEVFormer能够聚合空间和时间信息，从多个视角准确描述可移动障碍物，从而生成包含全场景信息的BEV特征。

（2）知识图谱来增强文本描述：语义信息通常具有离散的特性。这使得仅依赖于原始的文本描述可能不足以全面表达场景的复杂性。为了增强文本表述，引入知识图谱中的非结构化信息。知识图谱通过捕捉场景中的关键实体及其关联关系，能够为文本描述提供额外的关联信息，从而增强文本特征的语义表达能力。

抽象了知识图谱，以建立感知实例、标签和动作之间的关联。

这里借鉴了TransE方法，基于平移距离建模（translational distance modelling）的知识图谱嵌入方法。每个三元组（主体-谓语-客体）的得分函数通过计算向量之间的距离来衡量关系的合理性。表示为

其中和分别表示主体、谓语和客体的嵌入向量，norm 通常是L1或L2范数。

（3）语义融合：对输入的文本，以及知识图谱中提取与该文本相关的关键词嵌入。通过在文本中索引关键词，并将这些关键词与知识图谱中的节点嵌入连接起来，按照它们在文本中出现的顺序，将这些嵌入组合到一起。最终生成的语言嵌入不仅包含了原始文本和知识图谱的语义信息。

知识图谱编码嵌入、文本编码、以及两者融合的流程。左边为知识图谱的表述，使用KG embedding编码后，和文本编码（Text embedding）一起送入LLM，同时通过LoRA（Low-Rank Adaptation）分支进行微调。最后输出融合编码。

（4）共享跨模态提示 (Shared Cross-Modal Prompt, SCP) ：BEV和文本分支之间执行跨模态交互。利用这些跨模态提示将BEV特征和文本特征映射到同一个流形空间上，从而促进在两个分支中出现的发散模态信息的对齐。SCP的可学习参数被表示为一组序列化的提示向量。BEV特征被压缩和重塑为一个特征嵌入序列。对于每个提示向量，计算其与BEV特征序列中每个特征的相似度。通过求出这些相似度的最大值，得到该提示向量与整个BEV特征序列的投影。

对于所有可学习的提示向量，采用同样的方法，计算BEV特征序列在整个提示向量序列上的最大相似度集合。接下来，通过softmax函数将转换为SCP序列的权重。将这些权重应用到SCP上，从而完成BEV特征与提示向量的融合。类似的操作也应用于文本特征分支。

为了进一步提升对齐效果，模型还引入了辅助任务——BEV标题生成（BEV Caption Generation）。通过轻量级的transformer生成与BEV样本对应的文本描述，作为对比学习的补充监督信号。

Experiments

使用BEV-CLIP模型进行BEV检索任务。采用了预训练的BEVFormer模型来提取BEV特征，并结合经过Llama2+LoRA微调的参数和知识图谱生成的嵌入作为文本特征。通过应用共享跨模态提示（SCP）将BEV和文本特征对齐，并使用对比学习和标题生成损失进行监督训练。

往期回顾

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉