全球首个真实场景城市内涝监测大模型

学术 2024-09-22 10:55 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | ScienceAI

城市内涝是指由于强降水或连续性降水超过城市排水能力，导致雨水大量聚积的现象，不仅阻碍交通流动，而且增加事故风险、危害公共安全。

因此准确识别城市道路上的积水区域至关重要，关乎国家城市安全和人民生命健康安全，为城市安全治理具有重要意义。

然而由于真实环境的复杂性以及有标注数据极度稀缺，现有技术难以在现实世界中有效应用于城市内涝智能监测，阻碍了城市安全治理的高效智能化发展。

针对该难题，重庆大学张磊教授团队联合华为诺亚实验室首次将视觉基础模型 SAM 应用于城市内涝监测任务，提出了一个基于双赢机制的大小模型混合协同适配器范式（Large Small Model co-Adapter，LSM-Adapter），同时构建了全球首个面向真实场景的具有挑战性的大规模城市内涝基准数据集 UW-Bench。

该工作相关论文《Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter》已被 ECCV 2024 接收。

论文链接：https://arxiv.org/abs/2407.08109

项目主页：https://github.com/zhang-chenxu/LSM-Adapter

研究背景

传统的内涝检测方法通常是在道路上安装传感器测量水位以判断是否存在积水，但面临着维护成本高、覆盖面积小的问题。

近年来，利用监控摄像头采集的图像数据并结合深度学习技术检测积水取得了一些进展，但由于积水的内在特性和城市背景的复杂性，城市内涝检测面临诸多挑战：

1）不同场景中的积水区域在形状、大小和深度上各不相同，模型难以学习到统一的特征；

2）存在水面反射、积水浅且清澈的情况，此时积水纹理不清晰，甚至包含背景信息；

3）暗光条件下，积水特征不明显，进一步增加了检测难度。

由于这些挑战，现有方法难以在实际的城市场景中准确检测出内涝区域或进行精确分割。同时，现有数据集规模有限、缺乏多样性，严重限制了模型的识别精度和泛化能力。

为解决上述问题，作者提出了一种基于 Segment Anything Model（SAM）的大小模型协同适配器范式，通过联合提示微调和适配学习，实现高效且鲁棒的城市内涝积淹分布监测。

针对数据稀缺问题，构建了全球首个大规模、多样化且具有挑战性的真实场景的城市内涝检测基准数据集，涵盖了低光照、强光反射、清澈积水等复杂环境。图1展示了部分不利条件下的内涝场景及该工作所提方法的有效性。

图 1：城市内涝检测场景及分割结果示例。

模型架构

Meta AI 发布的视觉基础模型 SAM 展现了强大的零样本泛化能力，并在多个应用领域取得了令人印象深刻的分割性能。然而，由于缺乏针对特定任务的知识且依赖手动提示，SAM 在下游任务中的表现并不理想。

因此，作者提出了大小模型协同适配器范式（LSM-adapter），结合 SAM 和任务特定小模型，兼顾大模型在多样环境下的通用性和小模型在下游任务中的特异性。

为了自动生成提示，作者设计了一个三重 S 提示适配器（Triple-S Prompt Adapter，TSP-Adapt），包括基于小模型的空间提示器、基于原型的语义提示器和基于频谱的风格提示器，分别从小模型、大模型和原始输入生成提示。

这些提示的来源和功能各不相同，能够相互平衡和补充，为大模型提供更全面和多样的信息。

同时，提出了一个动态提示组合器（Dynamic Prompt Combiner，DPC）以动态地融合上述提示，由一组可学习的权重和自适应嵌入组成。

鉴于积水特征通常不明显，作者设计了一个直方图均衡适配器（Histogram Equalization adapter，HE-Adapt），将通过直方图增强和高通滤波后的任务相关信息注入到图像编码器中。图 2 详细展示了所提出的 LSM-Adapter 的整体架构。

图 2：大小模型协同适配器范式。

图 3：直方图均衡适配器和基于原型学习的语义提示器设计细节。

作者探索了两种不同的训练策略，包括（a）简单直接的一阶段训练策略，即联合优化大模型、小模型以及提示器模块，（b）但考虑到不同架构的模型联合优化时可能存在的更新不同步和梯度冲突等问题，更有效的两阶段训练策略被提出。

图 4：一阶段和两阶段训练策略示意图。

全球首个面向真实场景的大规模城市内涝积淹分布监测数据集

UW-Bench 数据集总计包括 7,677 张手动标注的图像数据，其中 5,584 张用于训练，2,093 张用于测试。

除了规模远大于现有的开源数据集，其特色在于涵盖了城市内涝、干燥道路、湿滑路面等多样化的场景，并且考虑了低光照、强光反射、清澈积水等复杂情况。

训练集由重庆大学 LiVEGroup 团队搜集并标注而成，每张图像的背景几乎不重复，且时间跨度从白天到夜晚。

搜集阶段主要包括以下步骤：

1) 爬取：在各种搜索引擎中通过使用城市内涝、内涝道路、监控视角等关键词抓取大量相关的图像数据；

2) 清洗：人工去除非城市场景的图像，然后使用 EasyData 平台清洗掉高相似度的图像；

3) 筛选：选择标准包括平衡有水和无水数据的数量，优先考虑高分辨率、监控视角和不利条件下的数据，最终的训练集根据上述标准筛选形成。

标注阶段使用 EasyData 平台对数据进行像素级标注。

测试集由华为提供，包括从真实监控视频中抽取得到的高分辨率图像，可分为难样本和普通样本。难样本主要是传统分割模型难以正确识别的在不利条件下的图像，而普通样本中的积水特征则相对明显，容易检测。

图 5：UW-Bench 数据集样例。

实验结果

作者在本文提出的 UW-Bench 数据集上评估了 LSM-Adapter 的性能，测试集包括完整版本 UW-all 和由难样本组成的子集 UW-hard。实验结果证实了 LSM-Adapter 的优越性及 UW-Bench 的挑战性，尤其在 UW-hard 上，LSM-Adapter 的综合性能（F1-Score 和 IoU）远超其他语义分割模型，表明了其应对不利条件下积淹场景的优越检测能力。

该研究对城市安全治理以及自然灾害防御具有重要价值。未来将进一步拓展应用场景，结合大模型以及传统物理模型实现重大自然灾害（洪涝等）的智能监测预警，构建自然灾害监测专用大模型。

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247502887&idx=2&sn=3c98b4921cfd0f52f2bc0abc70c043ef

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

最新文章

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

贝佐斯、OpenAI领投，给机器人装AI「大脑」的Physical Intelligence获4亿美元融资

精准预测RNA可变剪接，浙大多模态深度学习模型SpTransformer登Nature子刊

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉