将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯
编辑 | ScienceAI
城市内涝是指由于强降水或连续性降水超过城市排水能力,导致雨水大量聚积的现象,不仅阻碍交通流动,而且增加事故风险、危害公共安全。
因此准确识别城市道路上的积水区域至关重要,关乎国家城市安全和人民生命健康安全,为城市安全治理具有重要意义。
然而由于真实环境的复杂性以及有标注数据极度稀缺,现有技术难以在现实世界中有效应用于城市内涝智能监测,阻碍了城市安全治理的高效智能化发展。
针对该难题,重庆大学张磊教授团队联合华为诺亚实验室首次将视觉基础模型 SAM 应用于城市内涝监测任务,提出了一个基于双赢机制的大小模型混合协同适配器范式(Large Small Model co-Adapter,LSM-Adapter),同时构建了全球首个面向真实场景的具有挑战性的大规模城市内涝基准数据集 UW-Bench。
该工作相关论文《Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter》已被 ECCV 2024 接收。
研究背景
传统的内涝检测方法通常是在道路上安装传感器测量水位以判断是否存在积水,但面临着维护成本高、覆盖面积小的问题。
近年来,利用监控摄像头采集的图像数据并结合深度学习技术检测积水取得了一些进展,但由于积水的内在特性和城市背景的复杂性,城市内涝检测面临诸多挑战:
1)不同场景中的积水区域在形状、大小和深度上各不相同,模型难以学习到统一的特征;
2)存在水面反射、积水浅且清澈的情况,此时积水纹理不清晰,甚至包含背景信息;
3)暗光条件下,积水特征不明显,进一步增加了检测难度。
由于这些挑战,现有方法难以在实际的城市场景中准确检测出内涝区域或进行精确分割。同时,现有数据集规模有限、缺乏多样性,严重限制了模型的识别精度和泛化能力。
为解决上述问题,作者提出了一种基于 Segment Anything Model(SAM)的大小模型协同适配器范式,通过联合提示微调和适配学习,实现高效且鲁棒的城市内涝积淹分布监测。
针对数据稀缺问题,构建了全球首个大规模、多样化且具有挑战性的真实场景的城市内涝检测基准数据集,涵盖了低光照、强光反射、清澈积水等复杂环境。图1展示了部分不利条件下的内涝场景及该工作所提方法的有效性。
模型架构
Meta AI 发布的视觉基础模型 SAM 展现了强大的零样本泛化能力,并在多个应用领域取得了令人印象深刻的分割性能。然而,由于缺乏针对特定任务的知识且依赖手动提示,SAM 在下游任务中的表现并不理想。
因此,作者提出了大小模型协同适配器范式(LSM-adapter),结合 SAM 和任务特定小模型,兼顾大模型在多样环境下的通用性和小模型在下游任务中的特异性。
为了自动生成提示,作者设计了一个三重 S 提示适配器(Triple-S Prompt Adapter,TSP-Adapt),包括基于小模型的空间提示器、基于原型的语义提示器和基于频谱的风格提示器,分别从小模型、大模型和原始输入生成提示。
这些提示的来源和功能各不相同,能够相互平衡和补充,为大模型提供更全面和多样的信息。
同时,提出了一个动态提示组合器(Dynamic Prompt Combiner,DPC)以动态地融合上述提示,由一组可学习的权重和自适应嵌入组成。
鉴于积水特征通常不明显,作者设计了一个直方图均衡适配器(Histogram Equalization adapter,HE-Adapt),将通过直方图增强和高通滤波后的任务相关信息注入到图像编码器中。图 2 详细展示了所提出的 LSM-Adapter 的整体架构。
图 2:大小模型协同适配器范式。
作者探索了两种不同的训练策略,包括(a)简单直接的一阶段训练策略,即联合优化大模型、小模型以及提示器模块,(b)但考虑到不同架构的模型联合优化时可能存在的更新不同步和梯度冲突等问题,更有效的两阶段训练策略被提出。
全球首个面向真实场景的大规模城市内涝积淹分布监测数据集
UW-Bench 数据集总计包括 7,677 张手动标注的图像数据,其中 5,584 张用于训练,2,093 张用于测试。
除了规模远大于现有的开源数据集,其特色在于涵盖了城市内涝、干燥道路、湿滑路面等多样化的场景,并且考虑了低光照、强光反射、清澈积水等复杂情况。
训练集由重庆大学 LiVEGroup 团队搜集并标注而成,每张图像的背景几乎不重复,且时间跨度从白天到夜晚。
搜集阶段主要包括以下步骤:
1) 爬取:在各种搜索引擎中通过使用城市内涝、内涝道路、监控视角等关键词抓取大量相关的图像数据;
2) 清洗:人工去除非城市场景的图像,然后使用 EasyData 平台清洗掉高相似度的图像;
3) 筛选:选择标准包括平衡有水和无水数据的数量,优先考虑高分辨率、监控视角和不利条件下的数据,最终的训练集根据上述标准筛选形成。
标注阶段使用 EasyData 平台对数据进行像素级标注。
测试集由华为提供,包括从真实监控视频中抽取得到的高分辨率图像,可分为难样本和普通样本。难样本主要是传统分割模型难以正确识别的在不利条件下的图像,而普通样本中的积水特征则相对明显,容易检测。
实验结果
作者在本文提出的 UW-Bench 数据集上评估了 LSM-Adapter 的性能,测试集包括完整版本 UW-all 和由难样本组成的子集 UW-hard。实验结果证实了 LSM-Adapter 的优越性及 UW-Bench 的挑战性,尤其在 UW-hard 上,LSM-Adapter 的综合性能(F1-Score 和 IoU)远超其他语义分割模型,表明了其应对不利条件下积淹场景的优越检测能力。
该研究对城市安全治理以及自然灾害防御具有重要价值。未来将进一步拓展应用场景,结合大模型以及传统物理模型实现重大自然灾害(洪涝等)的智能监测预警,构建自然灾害监测专用大模型。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。