遥感视觉语言多模态大模型LHRS-Bot

科技   2024-07-14 15:00   德国  
语言作为人类长期进化与社会实践的产物,是人类文化和思维的载体。视觉作为人类与环境感知与交互的窗口,承载了人类对周围世界的认知和理解。为智能化分析与理解遥感图像,通过视觉识别提取遥感图像中的地物特征和分布模式,并结合语言与逻辑推理对观测结果进行分析总结,进而转化为期望的专家知识与地理决策,是遥感智能解译的未来发展趋势。
近年来,尽管遥感图像智能解译取得显著进展,但通常需针对特定类别、特定任务、特定场景而构建特定模型,且由于样本稀缺,模型的泛化能力仍十分有限。在该背景下,考虑视觉与语言间的关系,利用GPT等大语言模型强大的文本生成与理解、知识问答与逻辑推理能力,将语言作为监督信号和通用解译形式,南京大学高分辨率遥感实验室提出了遥感视觉语言多模态大模型LHRS-Bot。
LHRS-Bot掌握海量遥感地物特征,可以遵循人类指令,具备复杂推理能力,且在各项遥感视觉理解与推理任务中均取得了优异的结果(图1)。相关成果已被计算机视觉顶会ECCV(2024)录用。

图1 不同遥感解译任务上视觉语言多模态大模型效果对比图
具体而言,LHRS-Bot训练过程主要包括视觉语言对齐与视觉指令微调两个阶段。
  • 视觉语言对齐
大语言模型本身不具备对遥感图像的识别能力。为向大语言模型注入丰富的遥感视觉知识,利用全球范围内的遥感图像与Open Street Map (OSM)属性数据库构建大规模“遥感图像-文本描述”数据集,提出严格的数据构建、清洗和优化策略以生成高质量数据基座。
图2 大规模“遥感图像-文本描述”数据集构建方法
基于该数据,提出多粒度视觉-语言对齐策略为基础大语言模型注入遥感视觉信息,训练大语言模型识别遥感地物的能力。
图3 LHRS-Bot模型架构图
  • 视觉指令微调
下一步,为使大语言模型遵循语言指令并给出期望解译结果,通过重新组织现有遥感数据及利用GPT-4生成新数据等方式构建遥感视觉指令数据集。提出由易到难的渐进式视觉指令微调手段对多模态大语言模型进行指令微调。
图4 LHRS-Bot渐进式训练策略
实验结果表明,LHRS-Bot在遥感图像分类、视觉问答、视觉定位等任务中都取得了最优的结果(图1)。为从多种维度全面评估多模态大语言模型的遥感图像理解能力,构建遥感多模态大语言模型专用评估数据集LHRS-Bench(图5),评估维度包含5个一级维度和11个二级维度。
图5 LHRS-Bench数据集示例
LHRS-Bot与其他开源/闭源多模态大语言模型在LHRS-Bench上的结果表明,LHRS-Bot的表现不仅优于其他开源模型,还超越了Claude-3,并取得接近GPT-4的效果(表1)。
表1 开/闭源多模态大语言模型在LHRS-Bench评估数据集上效果对比
图6 LHRS-Bot视觉语言对话示例
该研究成果近日以“LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model”为题被国际计算机视觉顶级会议The 18th European Conference on Computer Vision (ECCV) 2024录用。南京大学地理与海洋科学学院硕士生地力夏提·木哈塔尔与博士生李振世为论文共同一作,张学良副教授为论文通讯作者,肖鹏峰教授、硕士生谷丰为论文合作作者。该研究得到国家自然科学基金面上项目(42071297)资助。

论文Arxiv地址:
https://arxiv.org/abs/2402.02544

模型Github地址:
https://github.com/NJU-LHRS/LHRS-Bot

论文深入解读:
https://zhuanlan.zhihu.com/p/708415355

高分辨率遥感实验室
南京大学地理与海洋科学学院肖鹏峰教授、张学良副教授研究团队,研究方向包括遥感图像语义分割与智能解译、多时相图像分类与变化检测、深度学习遥感建模与应用、积雪遥感识别与参数反演、积雪变化及其气候生态效应。
 最新文章