TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline

文摘 2024-10-31 08:10 荷兰

RS DL

论文介绍

题目：P2PFormer: A Primitive-to-Polygon Method for Regular Building Contour Extraction From Remote Sensing Images

期刊：IEEE Transactions on Geoscience and Remote Sensing

论文：https://ieeexplore.ieee.org/document/10679168

主页：https://lxtgh.github.io/project/omg_llava/

年份：2024

单位：武汉大学、中国石油大学(华东)、东华理工大学

创新点

新pipeline：P2PFormer采用原语（点、线、角等）来构建建筑轮廓，避免了传统方法需要后处理的复杂性。
群查询表示（Group Queries）：提出了一种独特的群查询表示方式，将原语表示为多个查询点和一个查询位置嵌入，能够更有效地表示和连接原语。
位置嵌入动态更新：引入了一种隐式更新策略，使查询位置嵌入更加聚焦，提升了原语分割的精度。
无后处理的轮廓生成：该方法通过直接预测原语顺序生成建筑轮廓，省去了后处理步骤。

背景

本研究聚焦于从遥感影像中提取规则的建筑轮廓，这对于制图、城市规划、人口估算和灾害管理等应用至关重要。然而，由于建筑物的形状复杂、多样性高，且存在遮挡和噪声，现有方法难以直接生成精确、规则的多边形轮廓。

当前主要方法分为三类pipeline：

Mask-based pipeline：该方法首先分割建筑区域，然后使用矢量化和规则化算法将结果转换为规则轮廓。然而，这种方法通常会产生较差的轮廓质量，并可能在分割结果中产生内部空洞，导致性能欠佳。
Contour-based pipeline：此方法直接回归建筑轮廓，但生成的轮廓通常包含大量冗余点，增加了简化难度，效果也往往不够完美。
Vertex-based pipeline：通过仅分割建筑顶点并预测它们之间的连接关系，减少了冗余点的产生，但仍需复杂的搜索算法来确定每个建筑的角点顺序，且容易受遮挡影响。

为了解决这些问题，本文提出了P2PFormer，基于一种新的pipeline，直接从遥感图像中提取规则的多边形建筑轮廓，并利用原语（如顶点、线段、角等）的分割和排序来生成无需后处理的精确轮廓。

数据

文章使用了三个遥感影像数据集来验证P2PFormer模型的表现，涵盖了不同的影像分辨率、地理区域和建筑风格。

CrowdAI数据集：这是一个具有挑战性的卫星图像数据集，用于建筑分割。包含280,741张训练图像和60,317张测试图像，每张图像尺寸为300×300像素。
WHU数据集：由高质量的航拍图像和标注组成。训练集、验证集和测试集的图像数量分别为2,793、627和2,220张，每张图像尺寸为1024×1024像素。
WHU-Mix数据集：这是一个混合了全球多个地区的航拍和卫星图像的大型数据集，以COCO格式标注建筑轮廓。训练集包含43,778张图像，验证集为2,922张，测试集分为两个：test1（11,675张）来自与训练集相似的区域，test2（6,011张）则来自完全不同的城市。

方法

方法框架概述

P2PFormer的设计目的是通过primitive-based pipeline直接提取规则的建筑轮廓。在本文中，primitive指的是构建建筑轮廓的基本几何元素，例如点、线段和角等。

检测器（Detector）：用于检测建筑边界框。
primitive分割器（Primitive Segmenter）：用于分割建筑的几何元素（即primitive），并预测它们的空间位置和置信度。
顺序解码器（Order Decoder）：确定各个primitive的顺序，生成规则的建筑轮廓。

检测器（Detector）

P2PFormer的检测器使用FCOS（Fully Convolutional One-Stage Object Detection）架构来生成建筑的边界框。此模块根据建筑的特征图，通过多尺度特征P3、P4和P5进行检测。这个设计的目的是能够识别不同尺寸的建筑物。边界框一旦生成，后续的primitive分割将在这些边界框内完成。

Primitive分割器（Primitive Segmenter）

primitive分割器的主要任务是在边界框内分割出建筑的几何primitive并确定它们的位置和置信度。

多尺度输入特征生成

使用ROI-Align方法从图像特征中裁剪出建筑的固定大小特征，并通过一系列的降采样操作生成多尺度特征。通过在初始解码器块中使用低分辨率特征，模型可以快速聚焦到查询的相关区域，而后续的高分辨率特征用于提高primitive位置预测的精度。这种多尺度特征的使用，不仅减少了内存需求，还加快了网络的收敛速度。

primitive表示方法 - Group Queries

每个primitive通过group queries来表示。传统方法中，通常使用单个查询来代表一个primitive，而在P2PFormer中，每个primitive由一个查询组（group queries）表示，并共享一个位置嵌入。这种方法使得多个端点（如直线的两个端点或角点的三个端点）可以同时被表示，极大提升了primitive的表达能力。

Primitive解码

primitive解码器由标准的交叉注意力（cross-attention）和自注意力（self-attention）组成。每一层的cross-attention层使查询与建筑实例特征进行交互，而self-attention层则在查询间建模它们之间的关系，以实现更准确的primitive分割和定位。查询位置嵌入在FFN（前馈网络）的帮助下动态更新，以集中于primitive的准确位置，提高预测精度。

Primitive预测器

在确定了每个primitive的位置和置信度后，通过多层感知机（MLP）预测每个primitive的端点位置，并利用FFN融合查询，以预测primitive的置信度。

顺序解码器（Order Decoder）

顺序解码器的任务是预测primitive的相对顺序，从而生成规则的建筑轮廓。

Primitive顺序标签生成

将primitive的顺序预测视作一个分类问题。对于每个建筑，预设的顺序类别数量大于实际需要的primitive数量。通过离散化算法将建筑轮廓分解成若干采样点，并将这些点按照顺时针顺序分配给最接近的primitive，这样每个primitive就得到了其顺序标签。

顺序解码器结构

顺序解码器由一系列自注意力层组成，以强化primitive间的相邻关系。解码器的输入是primitive解码器的输出（即Qprim）。在自注意力层后，通过前馈网络对查询进行分类，并根据响应值的最大值生成每个primitive的顺序。

结果与分析

P2PFormer方法通过创新的原语分割和顺序预测策略，实现了更高效和精确的建筑轮廓提取，取得了新的SOTA表现。

精度对比

可视结果

更多图表分析可见原文

欢迎关注会议论文赏读系列

因配置了AI回复功能，除关键词自动回复外，号内信息主要由AI大模型回复。如需资源、投稿、合作等，请直接联系小助手微信（添加请备注：咨询、投稿、合作、加群，加群需备注姓名/昵称，单位和研究方向）。

公众号欢迎优秀作者投稿！可加入优秀论文作者群：欢迎加入AI遥感优秀论文作者群！

问题及讨论可直接在文章下方留言

ACM MM24 | UrbanCross: 通过跨域适配增强卫星图像-文本检索, 香港科技大学广州分校等团队提出

TGRS | 无需切成小块图像! 金字塔超像素transformer用于高光谱图像分类

NeurIPS24 | M3LEO: 剑桥大学等提出集成干涉SAR和多光谱影像的多模态多标签数据集

TGRS | UBCV2:全球建筑检测和细粒度分类数据集, 光学和SAR影像精准对齐

TIP | 武大团队提出跨模态异常检测模型UniADRS, 用于遥感图像

技术实践 | 如何在YOLO11中训练tif格式4波段遥感图像？

TGRS | U²ConvFormer: 复旦团队提出高光谱图像分类模型, 结合U-Net和Transformer

ISPRS | SoftFormer: 多层次融合处理多模态遥感数据, 土地利用和土地覆盖分类

资讯 | 2024软科世界一流学科排名! 遥感、计算机专业排名

NeurIPS24 | AnyChange, 遥感零样本变化检测！

GSIS综述论文 | 中国遥感卫星, 原来有了这么多应用！对标哨兵和Landsat, 我们有哪些发展？

吉林一号高分辨率遥感数据免费下载！限时24小时！

NeurIPS24 | GeoPlant: 大型植物物种预测数据集, 含长时间序列卫星数据及土壤气候数据, 托管于Kaggle

会议手册 | 2024全国博士生测绘遥感学科学术论坛通知, 于中山大学举办

顶会新方向！全新多模态大模型统一分割框架

看Nature | 全球研究生在学术压力下的心理健康问题: ‘发表或淘汰’文化如何影响新一代学者？

TGRS | 哈工大提出同时处理遥感分类/分割/目标检测的多任务学习框架RSCoTr, 基于Transformer

NeurIPS24 | MMM-RS: 多模态, 多分辨率,多场景的遥感数据集和基准, 可用于跨模态数据生成

NeurIPS24 | OpenSatMap: 细粒度高分辨率卫星数据集, 中科院和腾讯等提出的用于大规模制图的数据集

遥感数据 | FTW全球农田边界数据, 含对应影像数据! 约160万田块边界及7万多个样本

太强了！如何用ChatGPT结合Python处理遥感数据

NeurIPS24 | SolarCube: 马里兰大学等提出高分辨率太阳辐照预测基准数据集, 包含卫星和现场观测数据

TPAMI | 大型城市场景的建筑实例分割和3D重建, 基于航拍图像

TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline

遥感竞赛 | 基于无人机航片的玉米异常情况识别, CCF大数据与计算智能大赛

NeurIPS24 | 如何更好地利用地理位置信息来提升模型效果？

NeurIPS24 | FUSU: 香港大学等单位提出多源多时相土地利用变化分割数据集

Python包 | Leafmap: 交互式地理空间分析, 为非GEE用户设计! 含500多个高级地理空间分析工具

论文er们，深度学习+遥感这口饭得趁热吃！

实用工具｜GeoSegment,SAM用于遥感图像分割,网页端操作,下载便捷

RSE | 刚果盆地道路发展监测, 基于深度学习和多源卫星影像

INFUS | STFDiff: 基于扩散模型的遥感图像时空融合

资讯 | 硬刚！被On hold后，eLife期刊正面回应

NeurIPS24 | ETH等提出高分辨率树冠数据集, 实例级标注, 超28万个体树和5.6万树群, 全球+多样化

会议通知 | AI和数字孪生改变城市生活, 英国格拉斯哥大学举办, 可线上免费参加

超强3D人体姿态估计SOTA! 即插即用于各种基于Transformer 3D姿势估计器

遥感数据 | 时间序列农作物分类基准数据集, 跨不同国家和气候区

PNAS | 检测2000多种植物分布! 使用遥感和深度学习监测和预测植物物种分布和快速变化, 结合公民科学数据

NeurIPS24 | 无需复杂地图! 基于城市白模的无人机视觉定位新方法

IJDE | 综述 | 全面回顾多源遥感影像变化检测, 发展历史, 数据, 方法, 未来展望

实用工具｜适用遥感图像的AI自动标注工具,T-Rex Label, 开箱即用, 检测一切!

论文 | HazyDet: 雾天无人机目标检测开源数据基准, 以及深度感知检测器DeCoDet

TPAMI | Changen2, 用于生成多时相遥感图像及变化检测数据的基础模型

深度｜AI教父Hinton与AI教母李飞飞首次公开对谈：我们必须通过，让懂得数据的人和懂得如何使技术有效的人建立联系来搭建这座桥

RSE | 降低对灾后图像的依赖! 遥感建筑损毁评估模型, 受灾前后样本无需相同位置

TPAMI聚焦, SegNet 高效而精准的图像语义分割网络

完整PPT | 谷歌提出用于遥感大模型的Embedding Fields 模型

会议通知 | 第二届大湾区测绘遥感大会（二号通知）

NeurIPS24 | 多无人机协作精确预测车辆等目标移动轨迹, Drones Help Drones

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline

论文介绍

创新点

背景

数据

方法

方法框架概述

检测器（Detector）

Primitive分割器（Primitive Segmenter）

多尺度输入特征生成

primitive表示方法 - Group Queries

Primitive解码

Primitive预测器

顺序解码器（Order Decoder）

Primitive顺序标签生成

顺序解码器结构

结果与分析