点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models
作者:Jungseok Hong, Ran Choi, John J. Leonard
机构:MIT
原文链接:https://arxiv.org/abs/2411.06752
数据集链接:http://jungseokhong.com/SEO-SLAM
1. 导读
语义同步定位和映射(SLAM)系统努力映射非常接近的语义相似的对象,尤其是在杂乱的室内环境中。我们介绍了对象SLAM的语义增强(SEO-SLAM),这是一个新颖的SLAM系统,它利用视觉语言模型(vlm)和多模态大型语言模型(MLLMs)来增强这种环境中的对象级语义映射。SEO-SLAM通过(1)使用MLLMs生成更具体和描述性的开放词汇对象标签,(2)同时校正导致错误界标的因素,以及(3)动态更新多类混淆矩阵以减轻对象检测器偏差来应对现有挑战。我们的方法通过MLLM反馈反映场景变化,实现了相似对象之间更精确的区分,并保持了地图的一致性。我们在具有挑战性的数据集上评估了SEO-SLAM,证明了在具有多个相似对象的环境中增强的准确性和鲁棒性。我们的系统在地标匹配准确性和语义一致性方面优于现有方法。结果显示来自MLLM的反馈改进了以对象为中心的语义映射。
2. 引言
同时定位与地图构建(SLAM)已从关注几何精度演变为整合语义信息,从而提高了其在导航、操作和规划等下游任务中的实用性。这一演变与计算机视觉和深度学习的进步相一致,引入了更丰富、更准确的环境表示。大型语言模型(LLM)、视觉语言模型(VLM)和多模态大型语言模型(MLLM)等基础模型的最新发展表明,它们可以在开放词汇环境下从数据中提取语义信息。多项研究表明,基础模型可以对嵌入语义特征的给定场景或地图进行空间推理。除了建图,其他方案还提出了使用基础模型的语义SLAM。
尽管取得了这些进展,但语义SLAM仍面临关键挑战:(1) 当检测器仅提供通用标签(例如,所有鞋子都标记为“鞋子”)时,很难区分近距离的相似对象。这会导致将相似对象融合为单个地标。(2) 错误的地标对长时间保持地图一致性构成重大挑战。此问题可能由传感器测量不确定性或场景变化引起,特别是在杂乱和动态环境中。(3) 对象检测器易受训练数据集中固有偏见的影响,导致某些对象出现一致的语义错误。
为解决这些挑战,我们旨在利用基础模型的语义理解和SLAM的空间精度来构建既语义一致又空间一致的地图。基础模型具有强大的语义理解能力,但在没有嵌入语义特征的预建地图的情况下,其空间推理能力有限。相反,SLAM系统在捕获空间信息方面表现出色,但往往难以维持可靠的语义信息。通过结合这些优势,我们提出了面向对象SLAM的语义增强(SEO-SLAM)这一新方法,该方法利用VLM和MLLM进行语义SLAM。
3. 效果展示
SEO-SLAM语义建图能力展示。(a) 使用通用标签的初始建图。(b) 利用多模态大型语言模型(MLLM)反馈的描述性标签进行检测,并构建包含更多地标的地图。(c) 所有鞋子均成功关联后的估计语义地图。(d) 场景变化后(移除白色鞋子)的更新语义地图。上排:对象检测结果;中排:估计的语义地图;下排:投影到相机帧上的地标,用作MLLM的输入。该序列展示了SEO-SLAM能够细化对象标签、在杂乱环境中更新地图以及适应场景变化的能力。
来自MD1数据集的定性结果。顶部的图像显示了蓝色鞋子、雪人和蓝色书籍被移除的场景变化。请注意,SEO-SLAM会分离非常接近的对象(例如,鞋子(9,21)、瓶子(11,17)和椅子(3,6,13)),并移除蓝色鞋子(9)。然而,系统只从场景中捕获一本书。推荐课程:彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战。
来自MLLMs的示例反馈:MapInfo提供了具有从3D语义地图投影的地标的RGB图像,以及每个地标的标签。LandmarkEval检查给定边界框内的对象及其标签,消除不正确的界标。ClassLabelGen根据不同的视觉特征为剩余的地标生成描述性标签。
4. 主要贡献
我们的主要贡献包括:
将图像标注、基于标签的定位和分割模型集成到SLAM管道中,以实现描述性开放词汇对象检测,并细化地标的语义信息。
利用MLLM为现有地标生成更具描述性的标签,并纠正错误地标,以减少感知歧义。
提出一种方法,利用MLLM响应更新多类预测混淆矩阵,并识别重复地标。
实验结果表明,在包含多个近距离相似对象的挑战性场景中,对象语义建图准确性有所提高。
引入了数据集,其中包含单个场景中的语义相似对象、里程计、真实轨迹数据和真实对象信息。
5. 方法
SEO-SLAM旨在解决此最大后验(MAP)问题,同时融入丰富的语义信息。为适应开放词汇语义,我们仅使用几何信息优化MAP问题,同时利用我们的测量中语义和几何信息之间的联系。这是通过融合来自检测器和深度图像的语义信息来实现的。我们的方法无需预先了解多类预测混淆矩阵的类预测统计信息,即可处理开放词汇语义类别。图2展示了SEO-SLAM管道的整体架构。管道的每个组件将在以下部分中解释。
6. 实验结果
表III展示了我们的方法、RGS和YOLO在六个不同复杂度的数据集上关于语义映射性能的全面比较。结果表明,我们的方法在语义准确性和地标数量估计方面始终优于其他方法。在大多数数据集中,我们的方法达到了最高的精确度和F1分数,这表明通过反馈,语义准确性得到了提升。这在SM1、MD1和LG2中尤为明显,我们的方法在这些数据集中保持了一致的性能,而RGS和YOLO则出现了性能下降。值得注意的是,我们的方法产生的错误正地标通常比其他方法少,这表明在杂乱的环境中,我们的方法具有更强的鲁棒性。我们的方法之所以表现稳健,是因为它能够利用多模态大型语言模型(MLLM)的反馈来优化地标描述并减少感知混淆。然而,在LG1中,我们的方法与RGS表现相近,因为每帧中的物体更多,这降低了来自MLLM的反馈质量。总体而言,这些结果证明了SEO-SLAM在提高语义映射准确性和减少不同环境复杂度下的错误正地标方面的有效性。
我们还评估了每种方法与里程计相比的轨迹误差(见图5)。在所有数据集中,我们的方法的中位绝对位置误差(APE)始终低于其他方法。RGS也表现良好,中位误差较低且异常值少于YOLO。YOLO的中位误差和异常值最高,因为它只能检测训练数据集中的物体。这证明了我们的开放词汇检测器在不同条件下更加稳健和准确。SEO-SLAM能够成功区分近距离的物体,并显示出在场景变化时更新语义地图的能力。虽然SEO-SLAM能够捕捉到大多数物体,但当物体距离过近时,它有时会遇到困难。例如,它只映射了场景中的一本书。
7. 限制性 & 总结
虽然SEO-SLAM在语义映射方面取得了显著改进,但有必要承认其存在一些局限性。我们发现,在SEO-SLAM中,MLLM很难为近距离内颜色相似且属于同一类别的物体生成非颜色特征的区分性标签。此外,其性能对环境光照条件敏感,这可能会影响其基于颜色的物体识别性能。未来,我们计划通过使MLLM能够通过元提示从物体的独特特征中生成标签来解决这些问题。
我们提出了SEO-SLAM,这是一种新颖的对象SLAM方法,它利用基础模型的语义理解能力来增强杂乱室内环境中的对象级语义映射。通过结合MLLM的反馈,SEO-SLAM解决了现有语义SLAM系统中的关键挑战。通过反馈,它生成了更具描述性的开放词汇对象标签,同时纠正了导致虚假地标的因素,并动态更新了多类混淆矩阵。实验结果表明,SEO-SLAM在不同复杂度的数据集中始终优于基线方法,提高了语义准确性、地标估计和轨迹准确性。这种方法特别能够减少错误正地标,并在具有多个相似物体的环境中提高鲁棒性。因此,SEO-SLAM是将基础模型的语义理解能力与SLAM系统的空间准确性相结合的重要一步。本文为在复杂和动态环境中实现更准确和稳健的语义映射开辟了新途径。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~