如何快速构建一个遥感时序分析智能应用?TEOChat:首个专为遥感时序分析设计的多模态大模型

科技   2024-11-14 09:32   北京  

近日,来自Stanford的Ermon小组推出了一款创新的多模态语言和视觉助手——TEOChat。

它专门用于分析和对话基于时序地球观测(EO)数据,展示了在多种复杂任务上的卓越性能,成为遥感时序任务领域的首个大模型应用

笔者本人也体验了这个模型,发现很有意思,可以解决之前很多复杂的业务需求。推荐你也赶快尝试下!

解决什么问题

现有VLMs缺乏处理时间序列地球观测数据的能力

需要大规模的多模态指令数据集来训练模型

需要在单张图像和时间序列数据上都能表现良好的模型架构

TEOChatlas:全新的时间序列遥感数据集

这个项目的核心技术之一,是一个庞大的指令跟随数据集——TEOChatlas,包含50多万个示例。Ermon团队对这种超大规模训练数据的重视让人印象深刻,毕竟如果没有足够多样化的数据,这类大模型的实际表现往往会大打折扣。

TEOChat:首个遥感时序任务视觉语言模型

模型架构

TEOChat采用了LLaVA-1.5架构,包括一个时间共享的图像编码器(CLIP ViT-L/14)、一个2层MLP和一个LLM解码器(Llama 2)。图像编码器用于获取序列中每张图像的表示,MLP将视觉表示投影到LLM的输入,LLM解码器生成响应。

训练策略

为了保留预训练图像编码器和LLM的强大能力,同时最小化训练期间的内存使用,研究团队冻结了视觉编码器和投影器的权重,并使用Low-Rank Adaptation(LoRA)对LLM进行微调。

此外,还使用了8位量化来减少LLM权重的内存占用。

模型评估

时间场景分类:在fMoW RGB和Sentinel验证集上,TEOChat分别取得了75.1%和45.5%的准确率,显著优于Video-LLaVA(16.6%)和GeoChat(59.2%)。

变化检测和空间参考表达:在所有变化检测任务中,TEOChat均显著优于Video-LLaVA和GeoChat。例如,在NBD建筑损坏分类任务中,TEOChat的F1值为50.0%,而Video-LLaVA仅为8.3%。

变化问答和基于区域的变化问答:在问答任务中,TEOChat在所有任务中的表现均优于基线VLMs。例如,在NBD变化问答任务中,TEOChat的准确率为89.9%,而GeoChat仅为34.0%。

时间参考表达和基于区域的时间问答:在时间参考表达和基于区域的时间问答任务中,TEOChat的准确率分别为74.9%和71.7%,显著高于Video-LLaVA(1.9%和26.5%)。

上手体验

作者在Huginnface上提供了一个demo可以用于简单验证。

我也进行了一些尝试。如下图

给定Bounding Box,问是什么
输出地物的Bounding Box

以及还有给定多个影像输入,要求完成时许分析任务的:

写在最后

TEOChat在包括时序变化检测和时序问答等任务上均表现出色。某些情况下,TEOChat不仅超越了许多专用模型,甚至在一些测试中超越了GPT-4o和Gemini-1.5 Pro等商用大模型。

能在非时序的单图像任务中,TEOChat同样展现出强大的场景分类和视觉问答能力,使其适用于更广泛的地球观测场景。

TEOChat作为时序地球观测领域的开创性工具,为遥感分析和环境监测提供了便捷的多模态解决方案。

利用这个模型,你也可以快速构建一个遥感时序分析任务的AI应用,做一些解决实际业务问题的场景化应用。

项目地址:https://github.com/ermongroup/TEOChat

arxiv地址:https://arxiv.org/abs/2410.06234

测绘学术资讯
导航、遥感、GIS、地图、地理、大地测量、无人机、智慧城市、自然资源监测、等等学术、技术和资讯。
 最新文章