论文分享｜无监督点云语义分割

文摘 2024-11-18 07:00 上海

作者 | NNU三维世界

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

最近小编发现两篇关于无监督点云语义分割的工作，分享给大家：

1、《GrowSP: Unsupervised Semantic Segmentation of 3D Point Clouds》

2、《PointDC: Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering》

Paper 1

题目：GrowSP: Unsupervised Semantic Segmentation of 3D Point Clouds

作者：Zihui Zhang，Bo Yang，Bing Wang，Bo Li

会议：Conference on Computer Vision and Pattern Recognition（CVPR2023）

论文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_GrowSP_Unsupervised_Semantic_Segmentation_of_3D_Point_Clouds_CVPR_2023_paper.pdf

项目连接：https://github.com/vLAR-group/GrowSP

动机

近年来，三维点云处理在计算机视觉和机器学习领域引起了广泛的关注。然而，现有的点云分割方法通常需要大量标注好的训练数据，这在实践中限制了它们的应用范围。针对这一问题，本文提出了一种全新的无监督三维点云语义分割方法 GrowSP。本文的方法关键是通过逐步增长的超点来发现3D语义元素。方法由三个主要部分组成，1）特征提取模块，从输入的点云学习每一个点的特征，2）超点构模块，逐步增长的超级点的大小，和3）语义基元聚类模块，实现超点到语义元素的最终语义分割。实验结果表明，本文的方法在多个三维点云数据集上取得了令人印象深刻的性能，且无需任何人工监督信号或者预训练模型等。本文的贡献主要包括以下三点：

1、针对真实世界点云，首次提出了一个完全无监督的3D语义分割框架，无需人工标注或任何预训练；

2、引入了一种简单的超点增长策略，引导网络逐渐学习高级语义信息；

3、在多个真实3D场景数据集上展示出了有前景的语义分割效果，显著地优于将2D适配到3D的方法和3D自监督预训练方法。

图1. 给定S3DIS数据集中具有复杂结构的输入点云，GrowSP只需通过逐步增长超点即可自动发现准确的语义类，而无需在训练中使用任何人工标记。

方法

图2. GrowSP的框架。

本文的方法一般将无监督的三维语义分割问题表述为在没有标签的情况下联合三维点云特征学习和聚类。输入N个点云，其中每个点都有一个位置信息，如果有颜色，特征提取器首先获得每个点的特征，其中嵌入长度可以自由预定义。本文简单地采用了强大的SparseConv架构，没有任何预训练步骤作为本文的特征提取器。有了输入点云和点特征，然后将它们输入到超点构造器中，在越来越多的训练周期中逐步生成越来越大的超点。这些超点将被输入到语义基元聚类模块中，为所有超点生成伪标签。在训练过程中，这些伪标签将用于优化特征提取器。

超点构建模块。该模块的目的是构建初始超点, 提供一些语义信息的先验，主要用于在训练初期引导网络的学习。对于数据集中每个3D场景，该模块会将场景点云划分为多个空间上连通的区域，这些区域内的几何形状和RGB是一致的。本文结合了两种超点划分方法：超体素云连通性分（Voxel Cloud Connectivity Segmentation，VCCS)和区域增长（Region Growing）。进一步地，为了使其学习到更加高维度的语义，依照特征相似度，对每一个3D场景进超点增长。增长的过程是在单个场景中进行的，将每个初始超点包含的平均特征，作为超点特征。对单个场景内的超点依照特征相似度聚类，实现超点的增长。

图3. 逐步增长的超点的图示。

语义基元聚类。数据集种包含的超点会进一步合并为一些简单的语义元素或基。以上两个步骤只是构建和增强超点，并未产生语义类别。在这一步，作者对整个数据集的超点的特征(在网络训练初期是初始超点，后期是增长后的超点) 进行聚类。实验发现，当聚类数多于最终类别数可以避免错误地将不同类的超点聚集在一起，并且会带来性能提升。于是作者将超点聚合为多个基础的语义单元，同时产生伪标签用于训练骨干。训练结束后再将语义基元聚合成类别，聚合方法是简单地K-means。由于本文以完全无监督的方式进行语义分割，所产生的类别标签只能用于区分不同的类，而和真值标签序号不一致，所以在测试时会修正标签序号。

结果

数据集。本文的方法在S3DIS 、ScanNet和SemanticKITTI数据集上进行了评估。

S3DIS数据集由6个大区域组成，共有271个房间。每个点属于13个类别中的一个。本文发现不同房间的clutter类并不具有一致的几何图案和语义信息。在没有标签的情况下，自动发现这些不同的几何形状作为一个共同的类别是具有挑战性的，也是不合理的。因此，在最后的测试阶段，本文只将除clutter外的所有点分成12类。

ScanNet数据集有1201个房间用于训练，312个房间用于离线验证，100个房间用于在线隐藏测试。每个点属于20个对象类别或未定义背景中的一个。

SemanticKITTI数据集由43552个户外激光雷达扫描的21个序列组成。它有19130个用于训练，4071个用于验证，20351个用于在线测试。每个点属于19个语义类别或未定义背景中的一个。

表1. 本文的方法在S3DIS数据集的Area-5上的定量结果，仅评估12个类别。

表2. ScanNet数据集定量结果，评估20个类。

图4. 本文方法的定性结果。顶行来自S3DIS数据集，下一行来自ScanNet。每种颜色代表一个语义类。红色圆圈突出显示差异。

Paper 2

题目：PointDC: Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering

作者：Zisheng Chen，Hongbin Xu，Weitao Chen，Zhipeng Zhou， Haihong Xiao，Baigui Sun，Xuansong Xie，Wenxiong kang

会议：International Conference on Computer Vision（ICCV2023）

论文链接：https://openaccess.thecvf.com/content/ICCV2023/papers/Chen_PointDC_Unsupervised_Semantic_Segmentation_of_3D_Point_Clouds_via_Cross-Modal_ICCV_2023_paper.pdf

项目链接：https://github.com/SCUT-BIP-Lab/PointDC

动机

点云的语义分割通常需要耗费大量的人工标注，因此从未标记或较弱形式的标注中学习的挑战性话题引起了广泛的关注。在本文中，作者们第一次提出了完全无监督的点云语义分割。以往的无监督方法在处理点云问题上的失败主要是由于：1）数据量有限和类分布不均衡导致的聚类模糊; 2）点云稀疏性不规则导致的不规则模糊。因此作者提出了一个新的框架PointDC，它是由两个步骤，分别处理上述问题：跨模态蒸馏（Cross-Modal Distillation，CMD）和超体素聚类（Super-Voxel Clustering，SVC）。在CMD的第一阶段，多视图的视觉特征后向投影到3D空间，并聚集成一个统一的点特征，以提取点表示的训练。在SVC的第二阶段，点特征被聚集到超体素，然后被馈送到迭代聚类过程中挖掘语义类。PointDC在ScanNet-v2（+18.4 mIoU）和S3 DIS（+11.5 mIoU）语义分割基准测试中比现有的最先进的无监督方法有了显著的改进。本文的贡献如下：

1、首次尝试在没有任何人类注释的情况下进行无监督的3D语义分割；

2、提出了一种新的无监督三维语义分割方法PointDC.该方法包括2个步骤：1）跨模态提取，将多视角视觉特征提取为基于点的表示; 2）超体素聚类，通过超体素池将点特征规则化为体素化表示，并迭代聚类以优化点云语义特征；

3、与已有的无监督方法相比，该方法在各种复杂数据集上的分割效果都有了上级的提高，证明了该方法的有效性。

图1. 从未注释的点云，希望分割系统自动发现语义概念，而无需任何监督。

方法

图2. PointDC框架。训练包含两个步骤：跨模态蒸馏和超体素聚类。

如图2所示，本文的PointDC框架包括两个训练阶段：跨模态蒸馏（CMD）和超体素聚类（SVC）。

跨模态蒸馏（CMD）。可以通过从不同的视点观察点云获得多视图图像。一个自我监督的预训练的2D模型被用来从多视图图像中提取特征图。然后可以反向投影将多视图图像的每个像素映射到点云的其对应点，由于一个点可能在不同的图像上有多个投影，通过等式中的全局最大池来聚合跨视图特征。在假设每个超体素包含相似的语义之后，进一步经由全局平均池化来聚合属于相同超体素的点的特征。

超体素池化（SVC）。将原始的点云转换成3D超体素再进行自监督学习和深度聚类训练。在每个局部超体素中对其包含的3D点特征进行聚合，得到一个置换不变的局部表征。再将这些超体素特征在整个数据集层面进行聚类来挖掘出语义概念，转换成伪标签再进行自训练（Self-train）。在自训练的过程中，会像其他对比学习方法一样，引入随机的数据增强，并约束其针对伪标签具有不变性和等变性。

图3. DINO提取的多视图特征图之间聚类结果的可视化。它表明多视图特征在语义上是相关的。

结果

数据集。在两个数据集ScanNet-v2和S3DIS上进行了实验。ScanNetv2包含来自707个独特室内场景的1613个3D扫描，所有这些场景都用20个类进行了注释。在此基础上，采用1201个场景作为训练集，采用312个场景作为验证集。其余100个场景用作测试集。

S3DIS包含13类271个室内场景。遵循官方训练/验证划分，在区域1、2、3、4、6上进行训练，然后在区域5上进行测试。由于本文的方法需要图像数据和摄像机的内在和外在参数，因此使用ScanNet-v2 2D数据和2D-3D-S。2D-3D-S包含与S3DIS中的场景相对应的多视角图像、相应的深度图以及内部和外部相机参数。

图4. ScanNet-v2验证集上无监督分割的定性比较。每个真值标签和聚类都被分配了一种颜色。

表1. ScanNet-v2验证集上无监督分割的比较。PointDC在无监督聚类和线性探测度量方面都显著优于现有技术。

表2. 在ScanNet-v2测试集上比较无监督分割

表3. S3DIS验证集上无监督分割的比较（Area 5）。

总结

第一项工作中介绍了GrowSP，证明了多个3D语义类可以使用纯无监督的方法从真实世界的点云中自动发现。通过利用简单的渐进增长策略来创建随着时间推移而越来越大的超点，GrowSP方法可以成功地学习有意义的语义元素。大量的实验验证了所提方法的有效性。

第二项工作PointDC，它包括两个步骤：跨模态提取和超体素聚类。在第一阶段，点云的多视图特征被反投影到3D空间，并聚集在一起的超体素提取点表示的训练。在第二阶段，点表示被聚合为超体素，然后被馈送到迭代聚类过程以学习语义上有意义的表示。作为不同点云基准测试的评估结果，提出的方法在ScanNet-v2和S3DIS数据集上都取得了很好的性能。

文 | 黄子豪排版 | 黄子豪

审核 | 蒋腾平

团队 | 南京师范大学地理科学学院GISA-Team

注：以上内容仅代表个人阅读与理解，详情请见原文。欢迎转载、转发本公众号发布的内容。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516560&idx=3&sn=79d2816bcc927814d099027c3b42691d

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉