V-SLAM中的共享注意力机制:基于信使令牌的小数据集相对位姿估计

文摘   2025-01-26 14:00   北京  



本文节选并改编于:

Dun Dai,Kai-Yuan Cai, Quan Quan, Sharing attention mechanism in V-SLAM: relative pose estimation with messenger tokens on small datasets. 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2024), Abu Dhabi, 2024, 7878-7884.

Doi:10.1109/IROS58592.2024.10801926



本文针对视觉SLAM中相对相机姿态估计这一关键问题,提出了一种创新性的解决方案。在小型室内场景应用中,传统基于深度学习的方法,特别是Transformer架构,往往因训练数据集规模受限而难以实现理想效果。针对这一挑战,本研究开发了一种新颖的混合架构,巧妙地结合了共享注意力机制与信使令牌,同时创新性地引入双重嵌入机制,以更全面地捕捉图像的空间和顺序特征。该方法在7Scenes数据集的两个最具挑战性的小规模子数据集上进行了严格验证,通过与基于CNN的模型、基于Transformer的端到端方案以及传统的非学习式特征匹配方法进行全面对比,实验结果显示该方法在各项指标上均取得了显著优势。

 研究背景  



在端到端相对姿态估计领域,已有多项开创性研究奠定了重要基础。早期研究【1】率先提出基于CNN的相对姿态估计方法,通过相似图像检索与相对姿态预测的双重机制实现目标。随后【2】进一步推进,提出了一个由可学习模块构建的完整框架,整合了检测、特征提取和匹配等核心功能。近年来,Transformer架构及其变体在计算机视觉等多个领域展现出卓越潜力,被广泛应用于相对姿态的直接回归预测。然而,这类模型在小规模数据集上的表现往往不尽如人意。基于这一现实问题,本研究借鉴了【3】提出的适用于小型数据集的Transformer变体,精心设计了一个在小规模数据环境下仍能保持稳健性能的端到端相对位姿估计模型。


 模型简介  



该模型采用三阶段级联架构,实现了端到端的位姿估计。在第一阶段,系统首先将输入的图像对送入预训练的特征提取网络,生成高维特征图谱。随后,借鉴DETR【4】的创新思路,对特征进行令牌化处理,并创新性地引入双重编码机制,有效增强了图像特征之间的空间位置关联。第二阶段采用双路并行设计,将处理后的特征令牌分别输入两个独立的Transformer编码器,通过精心设计的信使令牌机制实现编码器之间的深度信息交互,从而提取出与任务高度相关的注意力特征。在最后阶段,系统将两路信使令牌进行融合连接,通过专门设计的解码器网络,最终输出精确的相对位姿预测结果。 这种层次分明、模块化的设计不仅确保了特征提取的充分性和准确性,也通过信使令牌的创新应用实现了跨模块的有效信息交互,从而保证了位姿估计的可靠性和精确度。


1Laskar, I. Melekhov, S. Kalia, and J. Kannala, “Camera relocalization by computing pairwise relative poses using convolutional neural network,” in Proceedings of the IEEE International Conference on Computer Vision Workshops, 2017. 

【2】Y.-Y. Jau, R. Zhu, H. Su, and M. Chandraker, “Deep keypoint-based camera pose estimation with geometric constraints,” in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2020, pp. 4950–4957. 

【3】Z. Lu, H. Xie, C. Liu, and Y. Zhang, “Bridging the gap between vision transformers and convolutional neural networks on small datasets,” Advances in Neural Information Processing Systems, vol. 35, pp. 14 663– 14 677, 2022. 

【4】N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, “End-to-end object detection with transformers,” in Computer Vision – ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I. Berlin, Heidelberg: Springer-Verlag, 2020, pp. 213–229. 


论文下载

Sharing_Attention_Mechanism.pdf

本文来源:可靠飞行控制研究组 / 侵权联删

往期推荐阅读
往期热文(点击文章标题即读)





无人机
传播智能机器人时代的航空文化,从无人机的角度关注历史的天空
 最新文章