MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

科技 2024-11-14 07:03 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

作者：Jungseok Hong, Ran Choi, John J. Leonard

机构：MIT

原文链接：https://arxiv.org/abs/2411.06752

数据集链接：http://jungseokhong.com/SEO-SLAM

1. 导读

语义同步定位和映射(SLAM)系统努力映射非常接近的语义相似的对象，尤其是在杂乱的室内环境中。我们介绍了对象SLAM的语义增强(SEO-SLAM)，这是一个新颖的SLAM系统，它利用视觉语言模型(vlm)和多模态大型语言模型(MLLMs)来增强这种环境中的对象级语义映射。SEO-SLAM通过(1)使用MLLMs生成更具体和描述性的开放词汇对象标签，(2)同时校正导致错误界标的因素，以及(3)动态更新多类混淆矩阵以减轻对象检测器偏差来应对现有挑战。我们的方法通过MLLM反馈反映场景变化，实现了相似对象之间更精确的区分，并保持了地图的一致性。我们在具有挑战性的数据集上评估了SEO-SLAM，证明了在具有多个相似对象的环境中增强的准确性和鲁棒性。我们的系统在地标匹配准确性和语义一致性方面优于现有方法。结果显示来自MLLM的反馈改进了以对象为中心的语义映射。

2. 引言

同时定位与地图构建（SLAM）已从关注几何精度演变为整合语义信息，从而提高了其在导航、操作和规划等下游任务中的实用性。这一演变与计算机视觉和深度学习的进步相一致，引入了更丰富、更准确的环境表示。大型语言模型（LLM）、视觉语言模型（VLM）和多模态大型语言模型（MLLM）等基础模型的最新发展表明，它们可以在开放词汇环境下从数据中提取语义信息。多项研究表明，基础模型可以对嵌入语义特征的给定场景或地图进行空间推理。除了建图，其他方案还提出了使用基础模型的语义SLAM。

尽管取得了这些进展，但语义SLAM仍面临关键挑战：(1) 当检测器仅提供通用标签（例如，所有鞋子都标记为“鞋子”）时，很难区分近距离的相似对象。这会导致将相似对象融合为单个地标。(2) 错误的地标对长时间保持地图一致性构成重大挑战。此问题可能由传感器测量不确定性或场景变化引起，特别是在杂乱和动态环境中。(3) 对象检测器易受训练数据集中固有偏见的影响，导致某些对象出现一致的语义错误。

为解决这些挑战，我们旨在利用基础模型的语义理解和SLAM的空间精度来构建既语义一致又空间一致的地图。基础模型具有强大的语义理解能力，但在没有嵌入语义特征的预建地图的情况下，其空间推理能力有限。相反，SLAM系统在捕获空间信息方面表现出色，但往往难以维持可靠的语义信息。通过结合这些优势，我们提出了面向对象SLAM的语义增强（SEO-SLAM）这一新方法，该方法利用VLM和MLLM进行语义SLAM。

3. 效果展示

SEO-SLAM语义建图能力展示。(a) 使用通用标签的初始建图。(b) 利用多模态大型语言模型（MLLM）反馈的描述性标签进行检测，并构建包含更多地标的地图。(c) 所有鞋子均成功关联后的估计语义地图。(d) 场景变化后（移除白色鞋子）的更新语义地图。上排：对象检测结果；中排：估计的语义地图；下排：投影到相机帧上的地标，用作MLLM的输入。该序列展示了SEO-SLAM能够细化对象标签、在杂乱环境中更新地图以及适应场景变化的能力。

来自MD1数据集的定性结果。顶部的图像显示了蓝色鞋子、雪人和蓝色书籍被移除的场景变化。请注意，SEO-SLAM会分离非常接近的对象(例如，鞋子(9，21)、瓶子(11，17)和椅子(3，6，13))，并移除蓝色鞋子(9)。然而，系统只从场景中捕获一本书。推荐课程：彻底剖析激光-视觉-IMU-GPS融合SLAM算法：理论推导、代码讲解和实战。

来自MLLMs的示例反馈:MapInfo提供了具有从3D语义地图投影的地标的RGB图像，以及每个地标的标签。LandmarkEval检查给定边界框内的对象及其标签，消除不正确的界标。ClassLabelGen根据不同的视觉特征为剩余的地标生成描述性标签。

4. 主要贡献

我们的主要贡献包括：

将图像标注、基于标签的定位和分割模型集成到SLAM管道中，以实现描述性开放词汇对象检测，并细化地标的语义信息。

利用MLLM为现有地标生成更具描述性的标签，并纠正错误地标，以减少感知歧义。

提出一种方法，利用MLLM响应更新多类预测混淆矩阵，并识别重复地标。

实验结果表明，在包含多个近距离相似对象的挑战性场景中，对象语义建图准确性有所提高。

引入了数据集，其中包含单个场景中的语义相似对象、里程计、真实轨迹数据和真实对象信息。

5. 方法

SEO-SLAM旨在解决此最大后验（MAP）问题，同时融入丰富的语义信息。为适应开放词汇语义，我们仅使用几何信息优化MAP问题，同时利用我们的测量中语义和几何信息之间的联系。这是通过融合来自检测器和深度图像的语义信息来实现的。我们的方法无需预先了解多类预测混淆矩阵的类预测统计信息，即可处理开放词汇语义类别。图2展示了SEO-SLAM管道的整体架构。管道的每个组件将在以下部分中解释。

6. 实验结果

表III展示了我们的方法、RGS和YOLO在六个不同复杂度的数据集上关于语义映射性能的全面比较。结果表明，我们的方法在语义准确性和地标数量估计方面始终优于其他方法。在大多数数据集中，我们的方法达到了最高的精确度和F1分数，这表明通过反馈，语义准确性得到了提升。这在SM1、MD1和LG2中尤为明显，我们的方法在这些数据集中保持了一致的性能，而RGS和YOLO则出现了性能下降。值得注意的是，我们的方法产生的错误正地标通常比其他方法少，这表明在杂乱的环境中，我们的方法具有更强的鲁棒性。我们的方法之所以表现稳健，是因为它能够利用多模态大型语言模型（MLLM）的反馈来优化地标描述并减少感知混淆。然而，在LG1中，我们的方法与RGS表现相近，因为每帧中的物体更多，这降低了来自MLLM的反馈质量。总体而言，这些结果证明了SEO-SLAM在提高语义映射准确性和减少不同环境复杂度下的错误正地标方面的有效性。

我们还评估了每种方法与里程计相比的轨迹误差（见图5）。在所有数据集中，我们的方法的中位绝对位置误差（APE）始终低于其他方法。RGS也表现良好，中位误差较低且异常值少于YOLO。YOLO的中位误差和异常值最高，因为它只能检测训练数据集中的物体。这证明了我们的开放词汇检测器在不同条件下更加稳健和准确。SEO-SLAM能够成功区分近距离的物体，并显示出在场景变化时更新语义地图的能力。虽然SEO-SLAM能够捕捉到大多数物体，但当物体距离过近时，它有时会遇到困难。例如，它只映射了场景中的一本书。

7. 限制性 & 总结

虽然SEO-SLAM在语义映射方面取得了显著改进，但有必要承认其存在一些局限性。我们发现，在SEO-SLAM中，MLLM很难为近距离内颜色相似且属于同一类别的物体生成非颜色特征的区分性标签。此外，其性能对环境光照条件敏感，这可能会影响其基于颜色的物体识别性能。未来，我们计划通过使MLLM能够通过元提示从物体的独特特征中生成标签来解决这些问题。

我们提出了SEO-SLAM，这是一种新颖的对象SLAM方法，它利用基础模型的语义理解能力来增强杂乱室内环境中的对象级语义映射。通过结合MLLM的反馈，SEO-SLAM解决了现有语义SLAM系统中的关键挑战。通过反馈，它生成了更具描述性的开放词汇对象标签，同时纠正了导致虚假地标的因素，并动态更新了多类混淆矩阵。实验结果表明，SEO-SLAM在不同复杂度的数据集中始终优于基线方法，提高了语义准确性、地标估计和轨迹准确性。这种方法特别能够减少错误正地标，并在具有多个相似物体的环境中提高鲁棒性。因此，SEO-SLAM是将基础模型的语义理解能力与SLAM系统的空间准确性相结合的重要一步。本文为在复杂和动态环境中实现更准确和稳健的语义映射开辟了新途径。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710635&idx=1&sn=cbbcd355cf4f079f895c776808399153

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉