论文调研 | 室内语义建图(Semantic Image Segmentation)

文摘 2024-11-02 14:08 马来西亚

👆点击上方名片关注哟👆

随着计算机视觉和机器人技术的发展，室内语义建图（Semantic Image Segmentation）已成为智能系统中的关键任务之一。该技术旨在将环境中的各类对象进行精确分割，并为每一像素赋予语义标签，如“墙壁”、“桌子”、“椅子”等。这种细粒度的理解不仅能提升服务机器人在室内场景中的导航与操作能力，还在增强现实（AR）、自动驾驶、智能家居等领域展现出广泛应用前景。

与室外场景相比，室内场景的语义分割面临诸多挑战：

结构复杂：房间内存在高度遮挡、反光表面、不同光照条件，以及大量异构物体。
数据集稀缺：相比于街景等公共数据集，室内标注数据更难获取且成本较高。
实时性要求：在机器人和AR应用中，系统需要在毫秒级别内完成分割以保证实时交互。

近年来，基于卷积神经网络（CNN）和变换器（Transformer）的深度学习模型在语义分割任务中取得了显著进展。通过结合多尺度特征提取与上下文感知能力，这些模型能够有效处理复杂室内场景。同时，一些研究开始探索如何将空间感知建图（SLAM）与语义分割相结合，从而生成包含语义信息的三维地图，进一步提升环境建模的完整性。

本文的调研旨在概述室内语义建图领域的最新研究成果，包括常用数据集、经典算法、深度学习模型的发展趋势。

2021.05_Pathdreamer

论文：Pathdreamer: A World Model for Indoor Navigation
论文地址：https://arxiv.org/pdf/2105.08756
Demo：https://google-research.github.io/pathdreamer/

2022.04_ Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis

论文地址：https://arxiv.org/pdf/2011.06961
代码地址：https://github.com/TUI-NICR/ESANet

2022.06_Semantic Room Wireframe Detection from a Single View

论文地址：https://arxiv.org/pdf/2206.00491
代码地址：https://github.com/davidgillsjo/srw-net?tab=readme-ov-file

2022.Multi-scale fusion for RGB-D indoor semantic segmentation

论文地址：https://www.nature.com/articles/s41598-022-24836-9

2024.ISSSW

论文地址：https://www.sciencedirect.com/science/article/pii/S1047320323002419
代码地址：https://github.com/YunpingZheng/ISSSW

近年来，随着Transformer在自然语言处理领域的快速发展，许多研究者意识到了它的潜力并逐渐将其应用到计算机视觉领域，出现了以视觉Transformer （ViT）和数据高效图像Transformer（DeiT）为代表的理论方法。在ViT基础上，著名的Swin-Transformer被提出，作为最好的计算机视觉神经网络主干之一，可广泛应用于图像分类、目标检测和视频识别等任务。然而在图像分割领域，由于室内场景的物体种类繁多、尺寸差异大、存在大量重叠遮挡物体，室内场景的语义分割仍然十分具有挑战性。针对现有的RGB-D室内场景语义分割不能有效融合多模态特征的问题，本文提出了一种基于Swin-Transformer的室内语义分割算法。尝试将Swin-Transformer应用到室内RGBD语义分割领域，并在主流室内语义分割数据集NYU-Depth V2和SUN RGB-D上进行大量实验来测试模型的性能。实验结果表明，Swin-L RGB+Depth设置在NYU-Depth V2数据上达到了52.44% MIoU，在SUN RGB-D数据集上达到了51.15% MIoU，体现了在室内语义分割领域的优异表现。通过控制输入特征的类型，实验中也展示了Depth特征对室内语义分割模型性能的提升。

本文主要有以下主要贡献：

替换最终分类头：在图像分类任务中，Swin-Transformer 的最终输出是用于分类的单个特征向量。在语义分割任务中，输出需要是密集的逐像素预测。因此，最终分类头被一个产生密集输出掩码的上采样模块所取代。
增加解码器模块：为了生成高分辨率的输出掩码，在 Swin-Transformer 中添加了解码器模块。解码器模块从 Swin-Transformer 的最后阶段获取输出特征图，并执行上采样和串联操作以提高特征图的分辨率。
添加跳跃连接：为了提高模型的性能，在编码器和解码器模块之间添加了跳跃连接。这些跳跃连接允许模型使用编码器早期阶段的特征来生成更准确、更详细的分割掩码。修改后的模型结构如图3所示，它可以作为语义分割模型的主干。

不同于专门为RGB-D语义分割设计的网络结构，本文重点验证Swin-Transformer对于室内语义分割任务的有效性，并研究深度特征和从常规图像分割中提取的特征对模型性能的影响。

2024.TCANet

论文地址：https://link.springer.com/article/10.1007/s40747-023-01210-4

语义分割在室内场景分析中起着至关重要的作用。目前，由于各种室内场景的复杂条件，语义分割的准确率仍然有限。此外，仅依靠RGB图像很难完成这项任务。由于深度图像可以为RGB图像提供额外的3D几何信息，研究人员选择结合深度图像来提高室内语义分割的准确性。然而，有效地将深度信息与RGB图像融合仍然是一个挑战。为了解决这个问题，提出了一个三流坐标注意网络。该网络为RGB-D特征重建了一个多模态特征融合模块，可以实现沿空间和通道维度的两种模态信息的聚合。同时，利用三个卷积神经网络分支构建一个并行的三流结构，分别处理RGB特征、深度特征和组合特征。一方面，提出的网络可以同时保留原始的RGB和深度特征流。另一方面，它还可以有助于更好地利用和传播融合特征流。嵌入的ASPP模块用于优化所提网络中的语义信息，从而聚合不同尺度的特征信息并获得更准确的特征。实验结果表明，所提模型在NYUDv2数据集和更复杂的SUN-RGBD数据集上均能达到50.2%的当前最佳mIoU精度。

本研究的主要贡献有三方面：

提出了一种用于RGB-D室内语义分割的网络模型TCANet，该模型的核心是多模态特征融合模块，该网络可以充分提取RGB-D信息，增强室内语义分割的效果。
构建的三流框架和嵌入的ASPP模块可以同时整合和传播特征，以避免多尺度信息的丢失。
TCANet 在公共数据集上实现了最先进的性能，并且获得的语义分割精度优于大多数现有的室内 RGB-D 语义分割方法。

2024.03_Semantic-aware room-level indoor modeling from point clouds

论文：从点云进行语义感知房间级室内建模
论文地址：https://www.sciencedirect.com/science/article/pii/S1569843224000396
代码地址：https://github.com/indoor-modeling/indoor-modeling

本文介绍了一种从室内点云重建细粒度房间级模型的框架。我们方法背后的动机源于城市建筑物中建筑物形状在垂直方向上的一致楼层外观。为此，水平切分每层楼的点以获得代表性横截面，从中检测和增强线性基元。这些线性基元有助于将整个空间划分为具有共享边缘的非重叠连接面。然后通过求解二元能量最小化公式将这些面分类为室内或室外类别。在房间语义图的支持下，室内面进一步分组到每个单独的房间中。通过传播和追踪每个房间的轮廓，可以以语义感知的方式生成 2D 楼层平面图。这些生成的 2D 楼层平面图被垂直拉伸以匹配各自房间的高度。对来自 S3DIS 数据集的六个复杂场景的实验结果（包含线性和非线性形状）表明，我们创建的房间模型表现出准确的几何形状、正确的拓扑结构和丰富的语义。

参考文献

[1]https://www.superannotate.com/blog/guide-to-semantic-segmentation

想要了解更多内容，可在小程序搜索🔍AI Pulse,获取更多最新内容。

http://mp.weixin.qq.com/s?__biz=MzIzODI0MzQ5Mw==&mid=2650903854&idx=3&sn=70bde277e70e7c015e7bc06b77e0cbb5

AI Pulse

"AI Pulse - AI脉动"，探索AI技术前沿，深入解析算法精髓，分享行业应用案例，洞察智能科技未来。欢迎关注，与我们共赴AI学习之旅。

最新文章

NLP | GloVe(带有全局向量的词嵌入) 图文详解及代码

NLP | 自然语言处理经典seq2seq网络BERT详解及代码

NLP | XLNet ：用于语言理解的广义自回归预训练论文详解

数据集调研 | 语音合成,语音识别常见数据集及数据格式详情

Speech | 分割单个/批量音频python实现语音处理代码

Speech | 文本转语音中的声码器(Vocoder)

生成模型 | 代码简单实现生成对抗网络GAN

论文调研 | 一文总览万字语音合成系列基础知识及论文总结

论文调研合集：计算机视觉篇

论文调研 | Segment Anything Model(SAM)在医学影像上的各种方法

论文调研 | 室内语义建图(Semantic Image Segmentation)

论文调研 | 医学影像上的图像分类分割模型

NLP | SentenceTransformer将句子进行编码并计算句子语义相似度实战

CV | [顶刊CVPR2024]YOLO-World论文详解

Speech | NaturalSpeech2语音合成论文解析

论文调研 | Segment Anything Model(SAM)在医学影像上的各种方法

Speech | 人工智能中语音质量评估方法详解及代码

生成模型 | GAN生成系列论文及代码调研总结

CV | Medical-SAM-Adapter论文详解及项目实现

CV | 室内语义建图(Semantic Image Segmentation)的论文调研

Speech | 提取语音(数据集)的语音特征工具合集数据处理教程

实用篇 | 一文学会使用huggingface🤗

论文调研 | 2010-2024年万字情绪识别(EmotionRecognition)论文总结

数据集 | 基于语音（Speech）/多模态（Multimodal）的情绪识别数据集，格式及下载(图文详情)

API相关 | 一文学会人工智能中API的Flask编写(内含模板)

API相关 | 一文快速构建人工智能前端展示streamlit应用

CV | 手把手教你使用YOLO11训练自己的数据集

环境配置 | 在VSCode配置anaconda环境(图文详情)

CV | 医学影像上的图像分类分割模型调研【更新于20241015】

论文Idea | 人工智能与建筑的交叉领域探索

Mamba：使用选择性状态空间的线性时间序列建模

从银幕到现实：擎天柱机器人即将改变我们的生活

一文快速构建人工智能前端展示streamlit应用

LLM | 一些开源的AI代码生成模型调研及总结

MLLM | 多模态论文调研

TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)

YOLO | 用YOLOv7训练自己的数据集（超详细版）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉