大语言模型本身不具备对遥感图像的识别能力。为向大语言模型注入丰富的遥感视觉知识,利用全球范围内的遥感图像与Open Street Map (OSM)属性数据库构建大规模“遥感图像-文本描述”数据集,提出严格的数据构建、清洗和优化策略以生成高质量数据基座。图2 大规模“遥感图像-文本描述”数据集构建方法基于该数据,提出多粒度视觉-语言对齐策略为基础大语言模型注入遥感视觉信息,训练大语言模型识别遥感地物的能力。图3 LHRS-Bot模型架构图
视觉指令微调
下一步,为使大语言模型遵循语言指令并给出期望解译结果,通过重新组织现有遥感数据及利用GPT-4生成新数据等方式构建遥感视觉指令数据集。提出由易到难的渐进式视觉指令微调手段对多模态大语言模型进行指令微调。图4 LHRS-Bot渐进式训练策略实验结果表明,LHRS-Bot在遥感图像分类、视觉问答、视觉定位等任务中都取得了最优的结果(图1)。为从多种维度全面评估多模态大语言模型的遥感图像理解能力,构建遥感多模态大语言模型专用评估数据集LHRS-Bench(图5),评估维度包含5个一级维度和11个二级维度。图5 LHRS-Bench数据集示例LHRS-Bot与其他开源/闭源多模态大语言模型在LHRS-Bench上的结果表明,LHRS-Bot的表现不仅优于其他开源模型,还超越了Claude-3,并取得接近GPT-4的效果(表1)。表1 开/闭源多模态大语言模型在LHRS-Bench评估数据集上效果对比图6 LHRS-Bot视觉语言对话示例该研究成果近日以“LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model”为题被国际计算机视觉顶级会议The 18th European Conference on Computer Vision (ECCV) 2024录用。南京大学地理与海洋科学学院硕士生地力夏提·木哈塔尔与博士生李振世为论文共同一作,张学良副教授为论文通讯作者,肖鹏峰教授、硕士生谷丰为论文合作作者。该研究得到国家自然科学基金面上项目(42071297)资助。 论文Arxiv地址:https://arxiv.org/abs/2402.02544 模型Github地址:https://github.com/NJU-LHRS/LHRS-Bot 论文深入解读:https://zhuanlan.zhihu.com/p/708415355