ISPRS | PolyR-CNN: 端到端的建筑轮廓提取

文摘   2024-12-10 08:30   荷兰  


 RS   DL 

论文介绍

题目:PolyR-CNN: R-CNN for end-to-end polygonal building outline extraction

期刊:ISPRS Journal of Photogrammetry and Remote Sensing

论文:https://www.sciencedirect.com/science/article/pii/S0924271624003824

代码:https://github.com/HeinzJiao/PolyR-CNN

年份:2024

作者单位:荷兰特文特大学
说明:本篇由论文原作者审阅

创新点

  • 端到端架构:PolyR-CNN 是第一个基于 R-CNN 模型的框架,直接预测多边形建筑轮廓的顶点序列,无需中间步骤。
  • Vertex Proposal 特征:提出了一种从多边形顶点坐标中提取详细实例特征的新方案,该特征用于引导区域兴趣(RoI)特征,生成更规则的建筑轮廓。
  • 复杂建筑处理:通过简单的后处理方法,PolyR-CNN 能够处理包含洞的建筑轮廓,这是其他端到端方法未展示的能力。
  • 计算效率:相比现有方法,PolyR-CNN 具有更短的训练收敛时间、更快的推理速度以及更低的模型复杂性。

数据

  • CrowdAI 数据集
    • 包含 280,741 张训练图像和 60,317 张测试图像,每张大小为 300×300 像素。

    • 标注格式为 MS-COCO,多边形轮廓信息精确。
  • Inria 数据集
    • 包括 360 张 5000×5000 像素的高分辨率航拍图像,覆盖 10 个城市,建筑类型复杂。

    • 标注由栅格掩膜转为矢量化多边形,包含内部有洞的建筑。

    • 测试集覆盖未见城市。

方法

整体架构

PolyR-CNN 基于 R-CNN 框架,将建筑多边形视为目标检测任务中边界框的扩展,直接从输入图像中预测建筑的多边形顶点序列。模型的主要组成部分包括:
  • 骨干网络(Backbone):使用 ResNet-50 或 Swin-Transformer 提取多尺度特征,为后续模块提供丰富的图像表示。
  • 多层结构:包含 6 个连续的模块,每个模块都由以下部分组成

    • RoI 特征提取:使用 RoIAlign 从每个提议的边界框中提取固定尺寸的特征映射。

    • Vertex Proposal 特征提取:从预测的多边形顶点生成高维特征向量,称为 Vertex Proposal 特征,用于捕获建筑的几何信息。

    • RoI 特征引导:利用 Vertex Proposal 特征引导 RoI 特征,使其更关注建筑的边缘和角点。

    • 任务预测头:包括边界框分类头、边界框回归头、多边形回归头和顶点分类头,用于最终的预测。

Vertex Proposal 特征

为了增强模型对建筑几何细节的捕捉能力,提出了 Vertex Proposal 特征
  • 生成方法:对每个建筑实例,初始化固定数量(如 96 个)的多边形顶点,这些顶点均匀地采样于初始提议的多边形轮廓上。
  • 特征提取:将这些顶点坐标输入前馈神经网络(Feed-Forward Network,FFN),生成高维的特征向量(如 256 维),称为 Vertex Proposal 特征。
  • 作用:这些特征与对应的 RoI 特征结合,指导模型更准确地关注建筑的形状和边缘细节。

RoI 特征引导

由于 RoI 特征仅涵盖建筑的粗略信息,为了使其更关注建筑的关键细节,采用了一个动态实例交互头(Dynamic Instance Interactive Head):
  • 交互过程:将 Vertex Proposal 特征与 RoI 特征进行交互,调整 RoI 特征的表示,使其突出建筑轮廓。

  • 具体实现:通过线性变换和激活函数,将 Vertex Proposal 特征与 RoI 特征融合。

自注意力模块

为了弥补 RoI 特征缺乏全局信息的问题,在预测头之前引入了自注意力模块:
  • 目的:增强模型在处理相邻建筑时的辨别能力,避免边缘或顶点的重叠。

  • 效果:提高了模型对大型建筑和密集建筑区域的处理能力。

任务预测头

模型的预测部分由多个任务头组成:
  • 边界框分类头:预测每个提议区域是否包含建筑。
  • 边界框回归头:精确定位建筑的边界框位置。
  • 多边形回归头:预测建筑的多边形顶点坐标,形成建筑轮廓。
  • 顶点分类头:识别哪些顶点是有效的建筑角点,过滤掉冗余的顶点。

训练策略

  • 固定数量的 Proposal:模型使用固定数量的 Proposal 来简化训练过程,并采用集合匹配的损失函数进行优化。
  • 损失函数:包括边界框的分类和回归损失、多边形顶点的回归损失以及顶点的分类损失。

处理复杂建筑

对于包含内部洞的建筑,PolyR-CNN 的处理方法是
  • 独立实例处理:将每个有效的多边形(包括外部轮廓和内部洞)视为独立的实例进行预测。
  • 后处理合并:在预测完成后,通过简单的后处理方法,将属于同一建筑的多边形合并,形成完整的建筑结构。

精度

本文方法在精度和推理速度上均优于现有端到端方法。与其他方法相比,PolyR-CNN 以更低的计算成本实现了较高的预测精度和处理效率。

精度对比

可视化对比

更多图表分析可见原文


因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。

公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!


问题及讨论可直接在文章下方留言


相关链接:
TGRS | UBCV2:全球建筑检测和细粒度分类数据集, 光学和SAR影像精准对齐
TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline
TGRS | Easy-Net: 轻量级建筑提取网络, 基于建筑本身特征, 结合CNN和Transformer
数据整理 | 全球大规模建筑底座数据集汇总
代码解读 | 极简代码遥感语义分割,结合GDAL从零实现,以U-Net和建筑物提取为例

  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章