张志煌,许萌,李亮等 | BEV-Locator:基于多视角图像的端到端视觉语义定位网络

文摘   科技   2024-09-14 12:01   北京  

研究团队

张志煌,李亮:清华大学车辆与移动性研究院

许萌:对外经济贸易大学信息技术与管理学院

周文强,彭涛:轻舟智航公司

Stefan Poslad:伦敦大学玛丽女王学院电子工程与计算机科学学院


文章下载

Zhihuang Zhang, Meng Xu, Wenqiang Zhou, Tao Peng, Liang Li & Stefan PosladBEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images. Sci China Inf Sci, 2024, doi: 10.1007/s11432-023-4114-6



研究意义

在自动驾驶中,精确的定位能力是至关重要的。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,但这些模型依赖于复杂的参数调优,阻碍了大规模部署。为了克服这些挑战,我们提出了BEV-Locator,一种使用多视图图像的端到端视觉语义定位神经网络。该网络能够在不同驾驶环境(包括高速场景)中提供高精度的定位

本文工作

本文提出了一个完整的端到端视觉语义定位框架,该系统由视觉BEV编码器、语义地图编码器、跨模态Transformer和姿态解码器组成。首先,视觉BEV编码器将多视图图像提取并展平到BEV空间。然后,语义地图编码器将语义地图特征嵌入为地图查询序列。跨模态Transformer将BEV特征和语义地图查询关联起来。最后,通过解码器的输出,可以推断出车辆的姿态信息。
本文的创新点如下:
(1) 提出了一种新的端到端架构,通过多视图图像和语义环境进行视觉语义定位,实现了准确的车辆姿态估计。
(2) 采用了变压器结构来处理跨模态特征关联、查询和编码解码,解决了语义地图元素和相机图像之间的跨模态匹配关键问题。
(3) 利用周围图像通过统一的BEV特征空间增强了图像的感知能力,验证了将视觉语义定位问题作为基于BEV特征的大模型子任务的可行性。
(4) 在大规模的nuScenes和Qcraft数据集上进行了一系列实验,展示了所提出模型的有效性,在横向、纵向平移和航向角度上的平均绝对误差分别为0.052m、0.135m和0.251°。

实验结果

本文提出的控制方案在nuScenes和Qcraft数据集上进行了验证。在实验过程中,周围视图的图像被组合形成BEV特征。通过比较上图和下图可以看出,地图元素与相机视图中的元素吻合,证明了BEV-Locator的有效性。
nuScenes数据集结果:
误差曲线表明,BEV-Locator在nuScenes数据集上生成了出色的姿态精度。横向和纵向方向的误差分别小于20厘米和60厘米,航向方向的误差小于1°。
Qcraft数据集结果:
在Qcraft数据集上,BEV-Locator展示了更高的精度,特别是在高速场景中,路面元素清晰,地图质量高,定位相对容易。横向和纵向误差分别低于10厘米和40厘米。
通过对比实验结果,BEV-Locator在视觉语义定位问题上表现出色,能够在大规模数据集上实现高精度的车辆定位。





中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章