随着计算机视觉和机器人技术的发展,室内语义建图(Semantic Image Segmentation)已成为智能系统中的关键任务之一。该技术旨在将环境中的各类对象进行精确分割,并为每一像素赋予语义标签,如“墙壁”、“桌子”、“椅子”等。这种细粒度的理解不仅能提升服务机器人在室内场景中的导航与操作能力,还在增强现实(AR)、自动驾驶、智能家居等领域展现出广泛应用前景。
与室外场景相比,室内场景的语义分割面临诸多挑战:
结构复杂:房间内存在高度遮挡、反光表面、不同光照条件,以及大量异构物体。
数据集稀缺:相比于街景等公共数据集,室内标注数据更难获取且成本较高。
实时性要求:在机器人和AR应用中,系统需要在毫秒级别内完成分割以保证实时交互。
近年来,基于卷积神经网络(CNN)和变换器(Transformer)的深度学习模型在语义分割任务中取得了显著进展。通过结合多尺度特征提取与上下文感知能力,这些模型能够有效处理复杂室内场景。同时,一些研究开始探索如何将空间感知建图(SLAM)与语义分割相结合,从而生成包含语义信息的三维地图,进一步提升环境建模的完整性。
本文的调研旨在概述室内语义建图领域的最新研究成果,包括常用数据集、经典算法、深度学习模型的发展趋势。
2021.05_Pathdreamer
论文:Pathdreamer: A World Model for Indoor Navigation
论文地址:https://arxiv.org/pdf/2105.08756
Demo:https://google-research.github.io/pathdreamer/
2022.04_ Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
论文地址:https://arxiv.org/pdf/2011.06961
代码地址:https://github.com/TUI-NICR/ESANet
2022.06_Semantic Room Wireframe Detection from a Single View
论文地址:https://arxiv.org/pdf/2206.00491
代码地址:https://github.com/davidgillsjo/srw-net?tab=readme-ov-file
2022.Multi-scale fusion for RGB-D indoor semantic segmentation
论文地址:https://www.nature.com/articles/s41598-022-24836-9
2024.ISSSW
论文地址:https://www.sciencedirect.com/science/article/pii/S1047320323002419
代码地址:https://github.com/YunpingZheng/ISSSW
近年来,随着Transformer在自然语言处理领域的快速发展,许多研究者意识到了它的潜力并逐渐将其应用到计算机视觉领域,出现了以视觉Transformer (ViT)和数据高效图像Transformer(DeiT)为代表的理论方法。在ViT基础上,著名的Swin-Transformer被提出,作为最好的计算机视觉神经网络主干之一,可广泛应用于图像分类、目标检测和视频识别等任务。然而在图像分割领域,由于室内场景的物体种类繁多、尺寸差异大、存在大量重叠遮挡物体,室内场景的语义分割仍然十分具有挑战性。针对现有的RGB-D室内场景语义分割不能有效融合多模态特征的问题,本文提出了一种基于Swin-Transformer的室内语义分割算法。尝试将Swin-Transformer应用到室内RGBD语义分割领域,并在主流室内语义分割数据集NYU-Depth V2和SUN RGB-D上进行大量实验来测试模型的性能。实验结果表明,Swin-L RGB+Depth设置在NYU-Depth V2数据上达到了52.44% MIoU,在SUN RGB-D数据集上达到了51.15% MIoU,体现了在室内语义分割领域的优异表现。通过控制输入特征的类型,实验中也展示了Depth特征对室内语义分割模型性能的提升。
本文主要有以下主要贡献:
替换最终分类头:在图像分类任务中,Swin-Transformer 的最终输出是用于分类的单个特征向量。在语义分割任务中,输出需要是密集的逐像素预测。因此,最终分类头被一个产生密集输出掩码的上采样模块所取代。
增加解码器模块:为了生成高分辨率的输出掩码,在 Swin-Transformer 中添加了解码器模块。解码器模块从 Swin-Transformer 的最后阶段获取输出特征图,并执行上采样和串联操作以提高特征图的分辨率。
添加跳跃连接:为了提高模型的性能,在编码器和解码器模块之间添加了跳跃连接。这些跳跃连接允许模型使用编码器早期阶段的特征来生成更准确、更详细的分割掩码。修改后的模型结构如图3所示,它可以作为语义分割模型的主干。
不同于专门为RGB-D语义分割设计的网络结构,本文重点验证Swin-Transformer对于室内语义分割任务的有效性,并研究深度特征和从常规图像分割中提取的特征对模型性能的影响。
2024.TCANet
论文地址:https://link.springer.com/article/10.1007/s40747-023-01210-4
语义分割在室内场景分析中起着至关重要的作用。目前,由于各种室内场景的复杂条件,语义分割的准确率仍然有限。此外,仅依靠RGB图像很难完成这项任务。由于深度图像可以为RGB图像提供额外的3D几何信息,研究人员选择结合深度图像来提高室内语义分割的准确性。然而,有效地将深度信息与RGB图像融合仍然是一个挑战。为了解决这个问题,提出了一个三流坐标注意网络。该网络为RGB-D特征重建了一个多模态特征融合模块,可以实现沿空间和通道维度的两种模态信息的聚合。同时,利用三个卷积神经网络分支构建一个并行的三流结构,分别处理RGB特征、深度特征和组合特征。一方面,提出的网络可以同时保留原始的RGB和深度特征流。另一方面,它还可以有助于更好地利用和传播融合特征流。嵌入的ASPP模块用于优化所提网络中的语义信息,从而聚合不同尺度的特征信息并获得更准确的特征。实验结果表明,所提模型在NYUDv2数据集和更复杂的SUN-RGBD数据集上均能达到50.2%的当前最佳mIoU精度。
本研究的主要贡献有三方面:
提出了一种用于RGB-D室内语义分割的网络模型TCANet,该模型的核心是多模态特征融合模块,该网络可以充分提取RGB-D信息,增强室内语义分割的效果。
构建的三流框架和嵌入的ASPP模块可以同时整合和传播特征,以避免多尺度信息的丢失。
TCANet 在公共数据集上实现了最先进的性能,并且获得的语义分割精度优于大多数现有的室内 RGB-D 语义分割方法。
2024.03_Semantic-aware room-level indoor modeling from point clouds
论文:从点云进行语义感知房间级室内建模
论文地址:https://www.sciencedirect.com/science/article/pii/S1569843224000396
代码地址:https://github.com/indoor-modeling/indoor-modeling
本文介绍了一种从室内点云重建细粒度房间级模型的框架。我们方法背后的动机源于城市建筑物中建筑物形状在垂直方向上的一致楼层外观。为此,水平切分每层楼的点以获得代表性横截面,从中检测和增强线性基元。这些线性基元有助于将整个空间划分为具有共享边缘的非重叠连接面。然后通过求解二元能量最小化公式将这些面分类为室内或室外类别。在房间语义图的支持下,室内面进一步分组到每个单独的房间中。通过传播和追踪每个房间的轮廓,可以以语义感知的方式生成 2D 楼层平面图。这些生成的 2D 楼层平面图被垂直拉伸以匹配各自房间的高度。对来自 S3DIS 数据集的六个复杂场景的实验结果(包含线性和非线性形状)表明,我们创建的房间模型表现出准确的几何形状、正确的拓扑结构和丰富的语义。
参考文献
[1]https://www.superannotate.com/blog/guide-to-semantic-segmentation
想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。