张志煌,许萌,李亮等 | BEV-Locator:基于多视角图像的端到端视觉语义定位网络
文摘
科技
2024-09-14 12:01
北京
研究团队
张志煌,李亮:清华大学车辆与移动性研究院
许萌:对外经济贸易大学信息技术与管理学院
周文强,彭涛:轻舟智航公司
Stefan Poslad:伦敦大学玛丽女王学院电子工程与计算机科学学院
文章下载
Zhihuang Zhang, Meng Xu, Wenqiang Zhou, Tao Peng, Liang Li & Stefan Poslad. BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images. Sci China Inf Sci, 2024, doi: 10.1007/s11432-023-4114-6
在自动驾驶中,精确的定位能力是至关重要的。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,但这些模型依赖于复杂的参数调优,阻碍了大规模部署。为了克服这些挑战,我们提出了BEV-Locator,一种使用多视图图像的端到端视觉语义定位神经网络。该网络能够在不同驾驶环境(包括高速场景)中提供高精度的定位。本文提出了一个完整的端到端视觉语义定位框架,该系统由视觉BEV编码器、语义地图编码器、跨模态Transformer和姿态解码器组成。首先,视觉BEV编码器将多视图图像提取并展平到BEV空间。然后,语义地图编码器将语义地图特征嵌入为地图查询序列。跨模态Transformer将BEV特征和语义地图查询关联起来。最后,通过解码器的输出,可以推断出车辆的姿态信息。(1) 提出了一种新的端到端架构,通过多视图图像和语义环境进行视觉语义定位,实现了准确的车辆姿态估计。(2) 采用了变压器结构来处理跨模态特征关联、查询和编码解码,解决了语义地图元素和相机图像之间的跨模态匹配关键问题。(3) 利用周围图像通过统一的BEV特征空间增强了图像的感知能力,验证了将视觉语义定位问题作为基于BEV特征的大模型子任务的可行性。 (4) 在大规模的nuScenes和Qcraft数据集上进行了一系列实验,展示了所提出模型的有效性,在横向、纵向平移和航向角度上的平均绝对误差分别为0.052m、0.135m和0.251°。本文提出的控制方案在nuScenes和Qcraft数据集上进行了验证。在实验过程中,周围视图的图像被组合形成BEV特征。通过比较上图和下图可以看出,地图元素与相机视图中的元素吻合,证明了BEV-Locator的有效性。误差曲线表明,BEV-Locator在nuScenes数据集上生成了出色的姿态精度。横向和纵向方向的误差分别小于20厘米和60厘米,航向方向的误差小于1°。在Qcraft数据集上,BEV-Locator展示了更高的精度,特别是在高速场景中,路面元素清晰,地图质量高,定位相对容易。横向和纵向误差分别低于10厘米和40厘米。 通过对比实验结果,BEV-Locator在视觉语义定位问题上表现出色,能够在大规模数据集上实现高精度的车辆定位。