CVPR 2024 | BEVSee：无需相机标定的BEV感知

文摘 2024-08-12 09:23 中国

Projection：https://github.com/zekunqian/BEVSee

Arxiv：https://arxiv.org/pdf/2212.09298

本期概述

哈咯大家早上好！忙碌的一周又要开始了！是时候动身前往新的一周了！

本期分享的研究，BEVSee是解决鸟瞰视角（Bird’s Eye View, BEV）在没有预先给定的相机校准的情况下，多视角相机和多主体（人）的注册问题。

输入多个图像，BEVSee不使用相机校准下进行多目标的bev生成

BEVSee研究的创新点在于：

1. 新问题：首次研究了在鸟瞰视角下无需相机校准的多视角相机和多主体注册问题。

2. 新方法：集成了基于深度网络的视角变换模块和基于多视角几何的空间对齐模块。

3. 新数据集

PipeLine

BEVSee包括三个主要部分：视角变换模块（VTM）、空间对齐模块（SAM）和注册模块（Registration）。视角变换模块（VTM）首先使用PifPaf（一个人体姿态检测器）从每个视角的图像中检测出行人姿态。之后将PifPaf输出的2D关节信息输入到LocoNet模型中，将行人模型投影到BEV。空间对齐模块（SAM）从不同视角的BEV中找到相应的行人匹配对，计算相机的相对位置。注册模块（Registration），完成相机的注册。然后，将所有视角的行人位置和面部朝向信息聚合到统一的BEV中，形成最终的注册结果。

视角变换检测模块（View-Transform Detection Module, VTM）：VTM模块首先使用PifPaf模型来检测每个人物的2D骨骼关节点信息，表示了人物在原始图像中的姿态。

随后，2D骨骼信息被输入到LocoNet轻量级全连接神经网络中。LocoNet的结构包含三部分: 一个用于位置估计的分支，一个用于面部朝向估计的分支，以及一个用于深度估计的分支。LocoNet的输出包括每个视角下人物的位置和面部朝向在BEV中的估计值，表示为:

其中，表示视角，表示视角中的第个人物，是该人物的骨骼信息，是LocoNet的输出，包含位置和面部朝向的估计值。

LocoNet的结构，用于从2D关节信息中估计行人在3D空间中的位置和面部朝向。首先，输入的2D关节坐标经过坐标归一化处理，然后传递给基本模块（BasicBlock），该模块包括全连接层（FC）、批量归一化层（BN）、激活函数ReLU以及一个具有0.2丢弃率的Dropout层（DP 0.2）。网络结构中包含了两次重复的基本模块（BasicBlock），并通过残差连接来增强特征的学习。最终，输出层通过全连接层分别生成行人的x、y位置和面部朝向r的估计值。

空间对齐模块（SAM）：主要是进行不同世视角下的行人匹配，然后计算相机喜爱能够对位姿。流程如下：

行人匹配：通过计算外观特征（如使用ResNet-50提取的特征）来生成不同估计视角下的行人匹配对。匹配对之间的相似度通过欧几里得距离和sigmoid函数计算得出，形成一个相似度矩阵。

计算候选相对相机位姿：根据匹配对，SAM通过几何变换对两个视角中的BEV进行对齐。设参考视角的行人位置和面部朝向为，末注册视角的对应行人位置和朝向为。两者之间的相对变换可以表示为:

其中，是旋转矩阵，是平移矩阵，表示为:

通过变换公式，SAM能够计算出两台相机在BEV中的相对位姿，公式为:

该过程产生了多个候选的相对相机位姿。SAM模块通过一个相机姿态估计损失函数来训练LocoNet，以优化相机位置和朝向的估计。损失函数表示为候选位姿和真实位姿之间差异的总和:

通过行人匹配来计算相机相对位姿

相机和主体注册（Camera and Subject Registration）：在已经通过空间对齐模块（SAM）估计出相机相对位姿的基础上，进一步精确地注册相机和行人，并将所有视角的信息整合到一个统一的鸟瞰视角 (BEV) 中。

相机注册：利用之前计算出的多个候选相机位姿来确定最终的相机位置。在每个候选位姿中，未注册视角的相机位置可以表示为:

其中，是相机在 BEV 中的相对位姿。为了选择最佳的相机位姿，作者计算了每个候选相机位置与质心 (centroid) 之间的距离，并选择距离最小的候选位姿作为最终的相机注册结果。质心的计算公式为:

候选位姿与质心的距离为:

选取距离最小的对应的候选位姿作为相机的注册结果。

主体注册：首先根据相机注册结果，将所有未注册视角中的相机位置和行人位置对齐到统一的BEV中。接下来，通过两个步骤完成行人的注册：主体匹配和融合。

在主体匹配过程中，引入空间距离矩阵和角度差异矩阵来衡量来自不同视角的行人之间的距离和角度差异。此外，还结合了之前计算的相似度矩阵，通过阈值来筛选可能匹配的行人对。为了保证匹配的准确性，引入了循环一致性和唯一性约束，确保每个行人只能与一个视角中的一个行人匹配，并且匹配结果应形成闭环。

多视角注册问题中解决循环一致性（cycle consistency）和唯一性（uniqueness）冲突的过程。每个节点只能匹配另一个视角下的节点。主要是选取一个枢轴节点（pivot），并找到其与其他节点之间的最高置信度匹配。重复选取，并最终得到多个子图

主体融合：对于来自不同视角的同一行人，采用与相机注册类似的质心距离策略来计算最终的注册结果，即选择质心距离最小的行人位置和朝向作为最终的BEV中的注册结果。如果只有两个视角，则取两个视角下行人的平均位置和朝向作为融合结果。

Experiments

相机校准的实验结果。BEVSee均优于其他对比方法，特别是在平均位置误差和朝向误差上。这里李小毛觉得有点奇怪，SIFT方法真的比SuperGlue的喜爱能够对位姿计算好这么多吗？！之前做过实验，似乎并非如此？

主体注册结果。展示了BEVSee在主体注册任务中的优越性，同时消融研究也验证了模型结构设计的合理性，特别是预训练的重要性和匹配策略

本期结语

李小毛理解，我们上车的方案中，相机的标注参数是一个已知的输入项。所以似乎本项研究论文在自动驾驶方向没有太大的实用价值？没准在其他的领域，例如多视角感知、VR\AR、多人的场景分析等，有比较重要的意义~

往期回顾

GaussianBEV：首次将3D Gaussian引入BEV感知应用

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉