RS DL
论文介绍
题目:PolyR-CNN: R-CNN for end-to-end polygonal building outline extraction
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
论文:https://www.sciencedirect.com/science/article/pii/S0924271624003824
代码:https://github.com/HeinzJiao/PolyR-CNN
年份:2024
创新点
端到端架构:PolyR-CNN 是第一个基于 R-CNN 模型的框架,直接预测多边形建筑轮廓的顶点序列,无需中间步骤。 Vertex Proposal 特征:提出了一种从多边形顶点坐标中提取详细实例特征的新方案,该特征用于引导区域兴趣(RoI)特征,生成更规则的建筑轮廓。 复杂建筑处理:通过简单的后处理方法,PolyR-CNN 能够处理包含洞的建筑轮廓,这是其他端到端方法未展示的能力。 计算效率:相比现有方法,PolyR-CNN 具有更短的训练收敛时间、更快的推理速度以及更低的模型复杂性。
数据
CrowdAI 数据集
包含 280,741 张训练图像和 60,317 张测试图像,每张大小为 300×300 像素。
标注格式为 MS-COCO,多边形轮廓信息精确。
Inria 数据集
包括 360 张 5000×5000 像素的高分辨率航拍图像,覆盖 10 个城市,建筑类型复杂。
标注由栅格掩膜转为矢量化多边形,包含内部有洞的建筑。
测试集覆盖未见城市。
方法
整体架构
骨干网络(Backbone):使用 ResNet-50 或 Swin-Transformer 提取多尺度特征,为后续模块提供丰富的图像表示。 多层结构:包含 6 个连续的模块,每个模块都由以下部分组成
RoI 特征提取:使用 RoIAlign 从每个提议的边界框中提取固定尺寸的特征映射。
Vertex Proposal 特征提取:从预测的多边形顶点生成高维特征向量,称为 Vertex Proposal 特征,用于捕获建筑的几何信息。
RoI 特征引导:利用 Vertex Proposal 特征引导 RoI 特征,使其更关注建筑的边缘和角点。
任务预测头:包括边界框分类头、边界框回归头、多边形回归头和顶点分类头,用于最终的预测。
Vertex Proposal 特征
生成方法:对每个建筑实例,初始化固定数量(如 96 个)的多边形顶点,这些顶点均匀地采样于初始提议的多边形轮廓上。 特征提取:将这些顶点坐标输入前馈神经网络(Feed-Forward Network,FFN),生成高维的特征向量(如 256 维),称为 Vertex Proposal 特征。 作用:这些特征与对应的 RoI 特征结合,指导模型更准确地关注建筑的形状和边缘细节。
RoI 特征引导
交互过程:将 Vertex Proposal 特征与 RoI 特征进行交互,调整 RoI 特征的表示,使其突出建筑轮廓。
具体实现:通过线性变换和激活函数,将 Vertex Proposal 特征与 RoI 特征融合。
自注意力模块
目的:增强模型在处理相邻建筑时的辨别能力,避免边缘或顶点的重叠。
效果:提高了模型对大型建筑和密集建筑区域的处理能力。
任务预测头
边界框分类头:预测每个提议区域是否包含建筑。 边界框回归头:精确定位建筑的边界框位置。 多边形回归头:预测建筑的多边形顶点坐标,形成建筑轮廓。 顶点分类头:识别哪些顶点是有效的建筑角点,过滤掉冗余的顶点。
训练策略
固定数量的 Proposal:模型使用固定数量的 Proposal 来简化训练过程,并采用集合匹配的损失函数进行优化。 损失函数:包括边界框的分类和回归损失、多边形顶点的回归损失以及顶点的分类损失。
处理复杂建筑
独立实例处理:将每个有效的多边形(包括外部轮廓和内部洞)视为独立的实例进行预测。 后处理合并:在预测完成后,通过简单的后处理方法,将属于同一建筑的多边形合并,形成完整的建筑结构。
精度
本文方法在精度和推理速度上均优于现有端到端方法。与其他方法相比,PolyR-CNN 以更低的计算成本实现了较高的预测精度和处理效率。
精度对比
可视化对比
更多图表分析可见原文
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
问题及讨论可直接在文章下方留言
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。