LFEA-Net:通过局部特征提取与聚合实现城市点云场景的语义分割(LFEA-Net: semantic segmentation for urban point cloud scene via local feature extraction and aggregation)
Ziyin Zeng, Jian Zhou, Bijun Li, Youchen Tang & Maosheng Yan
随着三维真实城市构建技术的不断发展,三维城市点云场景数据的研究显得尤为重要。然而,由于采集到的点云数据具有自然无序和非结构化的特点,加之点的数量庞大且分布不均匀,针对城市场景实现精细语义分割仍然面临巨大挑战。在本研究中,我们提出了LFEA-Net,这是一种专门设计用于大规模城市点云场景语义分割的全新神经网络。该网络主要由两个部分组成:(1)局部特征提取(LFE)模块,充分利用局部空间、颜色和语义信息以增强和保留关键信息,由双边特征编码单元和多维特征编码单元组成;(2)局部特征聚合(LFA)模块,用于弥合局部信息的语义差距,并强调局部重要特征及整个局部邻域,由软交叉操作和联合池化操作组成。我们使用摄影测量点云数据集SensatUrban对LFEA-Net的性能进行了评估,并与现有的最先进网络进行了对比,LFEA-Net达到了61.6的mIoU得分。结果表明,LFEA-Net在准确分割和分类大规模城市点云场景方面具有优越的性能,显示出其在环境信息感知领域的潜力。
引用
Zeng, Ziyin, et al. "LFEA-Net: semantic segmentation for urban point cloud scene via local feature extraction and aggregation." Urban Informatics 2.1 (2023): 8.
https://doi.org/10.1007/s44212-023-00035-3
2.1网络架构
准确的实时三维场景感知与理解是环境遥感中的关键任务。随着三维传感器技术的进步,三维数据的应用越来越广泛,地图和图像等二维空间数据已无法满足三维空间认知、研究和实际应用的需求。点云语义分割已经成为环境感知中的一个重要研究课题,其目标是利用计算机视觉方法为三维点云场景中的每个点分配语义标签,从而提供场景中物体类别的精确描述。虽然一些成功的研究取得了显著的性能,但由于RNN最初是为处理有序序列数据而设计,CNN则是为结构化图像数据开发,因此它们在无序和非结构化的点云数据中的应用面临挑战。为了更高效地处理大规模点云场景,采用下采样的编码器-解码器网络架构在精确分割中得到了广泛应用。编码器通常由特征提取模块和特征聚合模块组成,这是我们研究的重点。
在本文中,我们提出了局部特征提取模块与局部特征聚合模块。我们将所提出的局部特征提取和局部特征聚合统称为局部特征提取和聚合(LFEA)模块。基于LFEA模块,我们构建了一个端到端的语义分割神经网络,称为LFEA-Net,该网络采用编码器-解码器架构。我们的主要贡献可以总结为以下几点:
1. 我们设计了一个局部特征提取(LFE)模块,能够充分利用局部的空间、颜色和语义信息。
2. 我们设计了一个局部特征聚合(LFA)模块,用于更有效地聚合局部信息。
3. 我们提出了用于点云语义分割的LFEA-Net,在城市尺度摄影测量基准SensatUrban上表现出色。
2.1网络架构
所提出的LFEA-Net遵循编码器-解码器结构。图1展示了该网络的详细架构。每个编码层由下采样操作和LFEA模块组成,LFEA模块包括LFE模块和LFA模块。点云的下采样通过最远点采样实现。网络逐步在较低分辨率下处理点云,同时增加通道维度。
图1.所提出的局部特征提取与聚合(LFEA)模块的示意图。(a)双边特征编码单元,(b)多维特征编码单元,以及(c)局部特征聚合模块(LFA)。其中,⊕表示特征连接,mlp表示多层感知器。
每个解码层包含上采样操作和多层感知器。通过跳跃连接将学习到的特征在编码器和解码器之间进行传递。最后,网络使用三个全连接层、一个dropout层和一个softmax层来预测每个点的分类标签得分。
2.2局部特征提取模块
LFE模块由两种编码组成:双边特征编码和多维特征编码。
2.2.1双边特征编码
现有的局部特征编码方法主要关注点的空间坐标 和语义特征,从而导致对颜色信息的利用不足。所提出的双边特征编码能够有效捕捉点云的空间几何信息和颜色信息,从而学习几何结构和颜色差异。对于点云中的每个点及其对应的颜色信息,通过在三维空间中基于欧氏距离的K近邻(KNN)方法确定的最近个点,其空间几何和颜色信息被融合到中心点以收集上下文信息。如图2a所示,我们将中心点的绝对位置与相对距离连接作为空间编码。同样地,我们将中心点对应的颜色信息与相对颜色差异 连接。空间编码和颜色编码可表示为如下形式:
其中,⊕表示拼接操作。双边特征编码可以通过结合空间编码和颜色编码来表示。为了清晰起见,我们分别展示了空间信息编码和颜色信息编码。实际上,点云的空间坐标和颜色信息作为相同的一组6维向量输入到网络中。这意味着在实际计算中,空间坐标和颜色信息被视为相同的变量。双边特征编码可以表示如下:
2.2.2多维特征编码
多维特征编码单元有效地捕捉了上一层输入点云的语义特征,使网络能够充分利用局部语义信息。该单元对每个点对应的语义特征 进行编码,以及其相邻点及其对应的特征。如图2b所示,多维特征编码将对应的语义特征与相对特征差进行拼接,表示如下:
2.3局部特征聚合模块
LFA由两个操作组成:软交叉单元和联合池化单元
2.3.1 软交叉操作
在前述两个单元之后,双边特征编码和多维特征编码被输出,但和并不能很好地代表局部特征。为了增强特征的泛化能力,我们提出了软交叉操作,以增强局部上下文信息并弥合和之间的语义鸿沟。具体来说,我们首先使用一个可学习的参数ɑ
2.3.2联合池化操作
现有的工作通常使用最大池化来聚合局部特征,但这会导致大部分信息的丢失。为了解决这个问题,我们引入了一种联合池化操作(),该操作结合了最大池化、均值池化和求和池化,以优化软交叉特征(),具体如下:
总体而言,我们的LFE和LFA模块通过显式考虑空间、颜色和语义信息,有效地学习局部上下文特征,然后通过自适应的软交叉操作弥合它们的语义鸿沟,最后使用联合池化将邻域特征聚合至中心点。我们将这两个模块统称为LFEA模块。
3.1实验设置
我们使用城市规模的摄影测量基准数据集SensatUrban来评估LFEA-Net在语义分割任务中的有效性。在本次实验中,使用每类交并比(IoU)、平均交并比(mIoU)和总体精度(OA)作为评估指标来定量分析分割性能。随后,通过消融实验评估网络中各个组件的有效性。
3.2 SensatUrban数据集的评估
SensatUrban数据集是一个城市规模的摄影测量点云数据集,覆盖了7.6平方公里的城市景观,包含近30亿个丰富标注的3D点。每个点都标注为13个语义类别之一,包括:地面、植被、建筑物、墙、桥、停车场、铁路、汽车、人行道、自行车道、水面、交通道路和街道家具。颜色属性被用于训练。网络按照官方数据划分进行训练,性能通过在线测试服务器进行评估。
我们的方法在总体精度和mIoU上分别达到了92.4%和61.6%。此外,LFEA-Net在停车场和交通道路的性能上也有显著提升(见图2)。综合定性和定量评估结果,LFEA-Net能有效地对大规模点云场景中的语义进行分类。
图2.SensatUrban的视觉对比
3.3 消融研究
通过消融研究对局部特征提取(LFE)和局部特征聚合(LFA)模块中的各个单元进行定量和定性评估,以验证其有效性。所有消融网络都在SensatUrban数据集上进行训练,并在其验证集上测试,结果如图3所示。
图3.消融网络的可视化对比
3.4 LFE模块的消融研究
我们探讨了不同信息编码方式对局部信息编码模块的影响。我们进行了以下消融实验以评估每种编码方式的效果:(A1)不进行编码,使用多层感知器代替;(A2)仅编码语义信息;(A3)结合语义和空间信息,类似于最近的工作;(A4)结合所有三种编码方式(空间、颜色和语义),即我们的方法。
依据消融研究的结果,可得出以下结论:(1)与不进行编码相比,编码操作显著提升了性能;(2)同时编码三种信息比仅编码空间和语义信息能够获得更高的性能。总之,编码空间、颜色和语义信息的有效性是显而易见的。
3.5 LFA模块的消融研究
我们定量分析了软交叉操作和联合池化操作对 LFA 模块的影响。在模型B1和B2中,我们使用了带有不同类型池化的交叉编码操作,而在模型B3和B4中,我们没有使用交叉编码操作(取而代之的是直接拼接双边特征编码和多维特征编码)。
结果显示,无论使用何种池化操作,带有软交叉操作的网络相比不带该操作的网络表现出了显著的准确率提升。同样,无论是否使用软交叉操作,带有联合池化操作的网络相比仅使用最大池化的网络表现出了显著的准确率提升。总的来说,结果证明了软交叉操作和联合池化操作的有效性。
本研究提出了一种用于大规模点云语义分割的模型LFEA-Net。研究的主要贡献在于引入了LFEA模块,该模块明确地编码空间坐标、颜色信息和语义信息,并通过交叉编码操作对其进行增强,随后利用联合的最大池化、平均池化和求和池化来学习和聚合局部上下文特征。所提出的LFEA-Net在城市级摄影测量基准数据集SensatUrban上表现出卓越的性能。然而,LFEA-Net的一个局限性在于,其颜色信息编码只能应用于具有颜色信息的点云数据,而某些数据集中可能不具备这种信息。在未来的研究中,将进一步探索更通用且有效的大规模点云场景语义分割方法,以适用于不含颜色信息的点云数据,从而更高效地增强局部上下文特征。
Ziyin Zeng,武汉大学博士研究生,研究兴趣包括光探测与测距 (LiDAR) 遥感、计算机视觉和点云处理,如点云语义分割、目标检测和场景重建。
Jian Zhou,武汉大学副研究员。研究兴趣为人工智能、算法、图像处理、机器学习。
https://jszy.whu.edu.cn/zhoujian3/zh_CN/index.htm
Bijun Li,武汉大学教授,博士生导师,中国光谷创新人才,湖北省现代服务业中青年领军人才首批入选者。主要研究机器视觉(无人驾驶相关技术)、地面激光测绘技术,导航与位置服务技术、智能交通技术等,是全国智能运输系统标准化技术委员会通讯委员、中国智能交通协会理事、中国人工智能学会会员、中国汽车工程学会会员。 国家测绘地理信息局标准化委员会委员,中国智能车路协同技术创新产业联盟理事、专家委员会委员。
http://www.lmars.whu.edu.cn/prof_web/libijun/libijun.htm
Youchen Tang,武汉大学博士研究生,研究兴趣包括高清地图、传感器融合定位和自动驾驶汽车。
END
编辑:王皓天、徐志萌
审核/指导:李丹丹