研究速递 | TEOChat:首个专为遥感时序分析设计的多模态大模型

科技   2024-11-13 10:17   陕西  

近日,来自Stanford的Ermon小组推出了一款创新的多模态语言和视觉助手——TEOChat。

它专门用于分析和对话基于时序地球观测(EO)数据,展示了在多种复杂任务上的卓越性能,成为遥感时序任务领域的首个大模型应用

笔者本人也体验了这个模型,发现很有意思,可以解决之前很多复杂的业务需求。推荐你也赶快尝试下!

解决什么问题

现有VLMs缺乏处理时间序列地球观测数据的能力

需要大规模的多模态指令数据集来训练模型

需要在单张图像和时间序列数据上都能表现良好的模型架构

TEOChatlas:全新的时间序列遥感数据集

这个项目的核心技术之一,是一个庞大的指令跟随数据集——TEOChatlas,包含50多万个示例。Ermon团队对这种超大规模训练数据的重视让人印象深刻,毕竟如果没有足够多样化的数据,这类大模型的实际表现往往会大打折扣。

TEOChat:首个遥感时序任务视觉语言模型

模型架构

TEOChat采用了LLaVA-1.5架构,包括一个时间共享的图像编码器(CLIP ViT-L/14)、一个2层MLP和一个LLM解码器(Llama 2)。图像编码器用于获取序列中每张图像的表示,MLP将视觉表示投影到LLM的输入,LLM解码器生成响应。

训练策略

为了保留预训练图像编码器和LLM的强大能力,同时最小化训练期间的内存使用,研究团队冻结了视觉编码器和投影器的权重,并使用Low-Rank Adaptation(LoRA)对LLM进行微调。

此外,还使用了8位量化来减少LLM权重的内存占用。

模型评估

时间场景分类:在fMoW RGB和Sentinel验证集上,TEOChat分别取得了75.1%和45.5%的准确率,显著优于Video-LLaVA(16.6%)和GeoChat(59.2%)。

变化检测和空间参考表达:在所有变化检测任务中,TEOChat均显著优于Video-LLaVA和GeoChat。例如,在NBD建筑损坏分类任务中,TEOChat的F1值为50.0%,而Video-LLaVA仅为8.3%。

变化问答和基于区域的变化问答:在问答任务中,TEOChat在所有任务中的表现均优于基线VLMs。例如,在NBD变化问答任务中,TEOChat的准确率为89.9%,而GeoChat仅为34.0%。

时间参考表达和基于区域的时间问答:在时间参考表达和基于区域的时间问答任务中,TEOChat的准确率分别为74.9%和71.7%,显著高于Video-LLaVA(1.9%和26.5%)。

上手体验

作者在Huginnface上提供了一个demo可以用于简单验证。

我也进行了一些尝试。如下图

给定Bounding Box,问是什么
输出地物的Bounding Box

以及还有给定多个影像输入,要求完成时许分析任务的:

写在最后

TEOChat在包括时序变化检测和时序问答等任务上均表现出色。某些情况下,TEOChat不仅超越了许多专用模型,甚至在一些测试中超越了GPT-4o和Gemini-1.5 Pro等商用大模型。

能在非时序的单图像任务中,TEOChat同样展现出强大的场景分类和视觉问答能力,使其适用于更广泛的地球观测场景。

TEOChat作为时序地球观测领域的开创性工具,为遥感分析和环境监测提供了便捷的多模态解决方案。

利用这个模型,你也可以快速构建一个遥感时序分析任务的AI应用,做一些解决实际业务问题的场景化应用。


项目地址:https://github.com/ermongroup/TEOChat

arxiv地址:https://arxiv.org/abs/2410.06234


往期推荐:

发展商业航天,要先让下游遥感产业赚钱

听声测雨新手段,将万千摄像头化身成为雨量计

ChatGPT接入Mapbox,AI地图搜索分析的实现思考

高效跟进研究前沿,AI论文阅读工具全攻略

可开放获取高分遥感数据集汇总

Google 发布遥感大模型技术“Embedding Field”,从高维数据到真实世界的重构



欢迎交流

笔者长期从事人工智能、遥感、大模型等业务

欢迎添加微信交流

空天感知
专注商业航天、人工智能、气象水文等交叉学科,精选行业资讯,深耕AI业务落地
 最新文章