RS DL
论文介绍
题目:P2PFormer: A Primitive-to-Polygon Method for Regular Building Contour Extraction From Remote Sensing Images
期刊:IEEE Transactions on Geoscience and Remote Sensing
论文:https://ieeexplore.ieee.org/document/10679168
主页:https://lxtgh.github.io/project/omg_llava/
创新点
新pipeline:P2PFormer采用原语(点、线、角等)来构建建筑轮廓,避免了传统方法需要后处理的复杂性。 群查询表示(Group Queries):提出了一种独特的群查询表示方式,将原语表示为多个查询点和一个查询位置嵌入,能够更有效地表示和连接原语。 位置嵌入动态更新:引入了一种隐式更新策略,使查询位置嵌入更加聚焦,提升了原语分割的精度。 无后处理的轮廓生成:该方法通过直接预测原语顺序生成建筑轮廓,省去了后处理步骤。
背景
Mask-based pipeline:该方法首先分割建筑区域,然后使用矢量化和规则化算法将结果转换为规则轮廓。然而,这种方法通常会产生较差的轮廓质量,并可能在分割结果中产生内部空洞,导致性能欠佳。 Contour-based pipeline:此方法直接回归建筑轮廓,但生成的轮廓通常包含大量冗余点,增加了简化难度,效果也往往不够完美。 Vertex-based pipeline:通过仅分割建筑顶点并预测它们之间的连接关系,减少了冗余点的产生,但仍需复杂的搜索算法来确定每个建筑的角点顺序,且容易受遮挡影响。
数据
CrowdAI数据集:这是一个具有挑战性的卫星图像数据集,用于建筑分割。包含280,741张训练图像和60,317张测试图像,每张图像尺寸为300×300像素。 WHU数据集:由高质量的航拍图像和标注组成。训练集、验证集和测试集的图像数量分别为2,793、627和2,220张,每张图像尺寸为1024×1024像素。 WHU-Mix数据集:这是一个混合了全球多个地区的航拍和卫星图像的大型数据集,以COCO格式标注建筑轮廓。训练集包含43,778张图像,验证集为2,922张,测试集分为两个:test1(11,675张)来自与训练集相似的区域,test2(6,011张)则来自完全不同的城市。
方法
方法框架概述
检测器(Detector):用于检测建筑边界框。
primitive分割器(Primitive Segmenter):用于分割建筑的几何元素(即primitive),并预测它们的空间位置和置信度。
顺序解码器(Order Decoder):确定各个primitive的顺序,生成规则的建筑轮廓。
检测器(Detector)
P2PFormer的检测器使用FCOS(Fully Convolutional One-Stage Object Detection)架构来生成建筑的边界框。此模块根据建筑的特征图,通过多尺度特征P3、P4和P5进行检测。这个设计的目的是能够识别不同尺寸的建筑物。边界框一旦生成,后续的primitive分割将在这些边界框内完成。
Primitive分割器(Primitive Segmenter)
primitive分割器的主要任务是在边界框内分割出建筑的几何primitive并确定它们的位置和置信度。
多尺度输入特征生成
使用ROI-Align方法从图像特征中裁剪出建筑的固定大小特征,并通过一系列的降采样操作生成多尺度特征。通过在初始解码器块中使用低分辨率特征,模型可以快速聚焦到查询的相关区域,而后续的高分辨率特征用于提高primitive位置预测的精度。这种多尺度特征的使用,不仅减少了内存需求,还加快了网络的收敛速度。
primitive表示方法 - Group Queries
每个primitive通过group queries来表示。传统方法中,通常使用单个查询来代表一个primitive,而在P2PFormer中,每个primitive由一个查询组(group queries)表示,并共享一个位置嵌入。这种方法使得多个端点(如直线的两个端点或角点的三个端点)可以同时被表示,极大提升了primitive的表达能力。
Primitive解码
primitive解码器由标准的交叉注意力(cross-attention)和自注意力(self-attention)组成。每一层的cross-attention层使查询与建筑实例特征进行交互,而self-attention层则在查询间建模它们之间的关系,以实现更准确的primitive分割和定位。查询位置嵌入在FFN(前馈网络)的帮助下动态更新,以集中于primitive的准确位置,提高预测精度。
Primitive预测器
在确定了每个primitive的位置和置信度后,通过多层感知机(MLP)预测每个primitive的端点位置,并利用FFN融合查询,以预测primitive的置信度。
顺序解码器(Order Decoder)
顺序解码器的任务是预测primitive的相对顺序,从而生成规则的建筑轮廓。
Primitive顺序标签生成
将primitive的顺序预测视作一个分类问题。对于每个建筑,预设的顺序类别数量大于实际需要的primitive数量。通过离散化算法将建筑轮廓分解成若干采样点,并将这些点按照顺时针顺序分配给最接近的primitive,这样每个primitive就得到了其顺序标签。
顺序解码器结构
顺序解码器由一系列自注意力层组成,以强化primitive间的相邻关系。解码器的输入是primitive解码器的输出(即Qprim)。在自注意力层后,通过前馈网络对查询进行分类,并根据响应值的最大值生成每个primitive的顺序。
结果与分析
P2PFormer方法通过创新的原语分割和顺序预测策略,实现了更高效和精确的建筑轮廓提取,取得了新的SOTA表现。
精度对比
更多图表分析可见原文
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
问题及讨论可直接在文章下方留言
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。