TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline

文摘   2024-10-31 08:10   荷兰  

 RS   DL 

论文介绍

题目:P2PFormer: A Primitive-to-Polygon Method for Regular Building Contour Extraction From Remote Sensing Images

期刊:IEEE Transactions on Geoscience and Remote Sensing

论文:https://ieeexplore.ieee.org/document/10679168

主页:https://lxtgh.github.io/project/omg_llava/

年份:2024
单位:武汉大学、中国石油大学(华东)、东华理工大学

创新点

  • 新pipeline:P2PFormer采用原语(点、线、角等)来构建建筑轮廓,避免了传统方法需要后处理的复杂性。
  • 群查询表示(Group Queries):提出了一种独特的群查询表示方式,将原语表示为多个查询点和一个查询位置嵌入,能够更有效地表示和连接原语。
  • 位置嵌入动态更新:引入了一种隐式更新策略,使查询位置嵌入更加聚焦,提升了原语分割的精度。
  • 无后处理的轮廓生成:该方法通过直接预测原语顺序生成建筑轮廓,省去了后处理步骤。

背景

本研究聚焦于从遥感影像中提取规则的建筑轮廓,这对于制图、城市规划、人口估算和灾害管理等应用至关重要。然而,由于建筑物的形状复杂、多样性高,且存在遮挡和噪声,现有方法难以直接生成精确、规则的多边形轮廓。
当前主要方法分为三类pipeline:
  • Mask-based pipeline:该方法首先分割建筑区域,然后使用矢量化和规则化算法将结果转换为规则轮廓。然而,这种方法通常会产生较差的轮廓质量,并可能在分割结果中产生内部空洞,导致性能欠佳。
  • Contour-based pipeline:此方法直接回归建筑轮廓,但生成的轮廓通常包含大量冗余点,增加了简化难度,效果也往往不够完美。
  • Vertex-based pipeline:通过仅分割建筑顶点并预测它们之间的连接关系,减少了冗余点的产生,但仍需复杂的搜索算法来确定每个建筑的角点顺序,且容易受遮挡影响。
为了解决这些问题,本文提出了P2PFormer,基于一种新的pipeline,直接从遥感图像中提取规则的多边形建筑轮廓,并利用原语(如顶点、线段、角等)的分割和排序来生成无需后处理的精确轮廓。

数据

文章使用了三个遥感影像数据集来验证P2PFormer模型的表现,涵盖了不同的影像分辨率、地理区域和建筑风格。
  • CrowdAI数据集:这是一个具有挑战性的卫星图像数据集,用于建筑分割。包含280,741张训练图像和60,317张测试图像,每张图像尺寸为300×300像素。
  • WHU数据集:由高质量的航拍图像和标注组成。训练集、验证集和测试集的图像数量分别为2,793、627和2,220张,每张图像尺寸为1024×1024像素。
  • WHU-Mix数据集:这是一个混合了全球多个地区的航拍和卫星图像的大型数据集,以COCO格式标注建筑轮廓。训练集包含43,778张图像,验证集为2,922张,测试集分为两个:test1(11,675张)来自与训练集相似的区域,test2(6,011张)则来自完全不同的城市。

方法

方法框架概述

P2PFormer的设计目的是通过primitive-based pipeline直接提取规则的建筑轮廓。在本文中,primitive指的是构建建筑轮廓的基本几何元素,例如点、线段和角等。

  • 检测器(Detector):用于检测建筑边界框。

  • primitive分割器(Primitive Segmenter):用于分割建筑的几何元素(即primitive),并预测它们的空间位置和置信度。

  • 顺序解码器(Order Decoder):确定各个primitive的顺序,生成规则的建筑轮廓。


检测器(Detector)

P2PFormer的检测器使用FCOS(Fully Convolutional One-Stage Object Detection)架构来生成建筑的边界框。此模块根据建筑的特征图,通过多尺度特征P3、P4和P5进行检测。这个设计的目的是能够识别不同尺寸的建筑物。边界框一旦生成,后续的primitive分割将在这些边界框内完成。

Primitive分割器(Primitive Segmenter)

primitive分割器的主要任务是在边界框内分割出建筑的几何primitive并确定它们的位置和置信度。

  • 多尺度输入特征生成

使用ROI-Align方法从图像特征中裁剪出建筑的固定大小特征,并通过一系列的降采样操作生成多尺度特征。通过在初始解码器块中使用低分辨率特征,模型可以快速聚焦到查询的相关区域,而后续的高分辨率特征用于提高primitive位置预测的精度。这种多尺度特征的使用,不仅减少了内存需求,还加快了网络的收敛速度。

  • primitive表示方法 - Group Queries

每个primitive通过group queries来表示。传统方法中,通常使用单个查询来代表一个primitive,而在P2PFormer中,每个primitive由一个查询组(group queries)表示,并共享一个位置嵌入。这种方法使得多个端点(如直线的两个端点或角点的三个端点)可以同时被表示,极大提升了primitive的表达能力。

  • Primitive解码

primitive解码器由标准的交叉注意力(cross-attention)和自注意力(self-attention)组成。每一层的cross-attention层使查询与建筑实例特征进行交互,而self-attention层则在查询间建模它们之间的关系,以实现更准确的primitive分割和定位。查询位置嵌入在FFN(前馈网络)的帮助下动态更新,以集中于primitive的准确位置,提高预测精度。

  • Primitive预测器

在确定了每个primitive的位置和置信度后,通过多层感知机(MLP)预测每个primitive的端点位置,并利用FFN融合查询,以预测primitive的置信度。

顺序解码器(Order Decoder)

顺序解码器的任务是预测primitive的相对顺序,从而生成规则的建筑轮廓。

  • Primitive顺序标签生成

将primitive的顺序预测视作一个分类问题。对于每个建筑,预设的顺序类别数量大于实际需要的primitive数量。通过离散化算法将建筑轮廓分解成若干采样点,并将这些点按照顺时针顺序分配给最接近的primitive,这样每个primitive就得到了其顺序标签。

  • 顺序解码器结构

顺序解码器由一系列自注意力层组成,以强化primitive间的相邻关系。解码器的输入是primitive解码器的输出(即Qprim)。在自注意力层后,通过前馈网络对查询进行分类,并根据响应值的最大值生成每个primitive的顺序。

结果与分析

P2PFormer方法通过创新的原语分割和顺序预测策略,实现了更高效和精确的建筑轮廓提取,取得了新的SOTA表现。

精度对比

可视结果

更多图表分析可见原文



欢迎关注会议论文赏读系列

因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。


公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!




问题及讨论可直接在文章下方留言


相关链接:
TGRS | Easy-Net: 轻量级建筑提取网络, 基于建筑本身特征, 结合CNN和Transformer
RSE | 降低对灾后图像的依赖! 遥感建筑损毁评估模型, 受灾前后样本无需相同位置
数据整理 | 全球大规模建筑底座数据集汇总
代码解读 | 极简代码遥感语义分割,结合GDAL从零实现,以U-Net和建筑物提取为例
数据论文 | RSE | 1.85亿中国建筑轮廓数据: 首个基于深度学习生成的中国亚米级建筑footprints数据

  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章