近日,来自Stanford的Ermon小组推出了一款创新的多模态语言和视觉助手——TEOChat。
它专门用于分析和对话基于时序地球观测(EO)数据,展示了在多种复杂任务上的卓越性能,成为遥感时序任务领域的首个大模型应用。
笔者本人也体验了这个模型,发现很有意思,可以解决之前很多复杂的业务需求。推荐你也赶快尝试下!
解决什么问题
现有VLMs缺乏处理时间序列地球观测数据的能力
需要大规模的多模态指令数据集来训练模型
需要在单张图像和时间序列数据上都能表现良好的模型架构
TEOChatlas:全新的时间序列遥感数据集
这个项目的核心技术之一,是一个庞大的指令跟随数据集——TEOChatlas,包含50多万个示例。Ermon团队对这种超大规模训练数据的重视让人印象深刻,毕竟如果没有足够多样化的数据,这类大模型的实际表现往往会大打折扣。
TEOChat:首个遥感时序任务视觉语言模型
模型架构
TEOChat采用了LLaVA-1.5架构,包括一个时间共享的图像编码器(CLIP ViT-L/14)、一个2层MLP和一个LLM解码器(Llama 2)。图像编码器用于获取序列中每张图像的表示,MLP将视觉表示投影到LLM的输入,LLM解码器生成响应。
训练策略
为了保留预训练图像编码器和LLM的强大能力,同时最小化训练期间的内存使用,研究团队冻结了视觉编码器和投影器的权重,并使用Low-Rank Adaptation(LoRA)对LLM进行微调。
此外,还使用了8位量化来减少LLM权重的内存占用。
模型评估
时间场景分类:在fMoW RGB和Sentinel验证集上,TEOChat分别取得了75.1%和45.5%的准确率,显著优于Video-LLaVA(16.6%)和GeoChat(59.2%)。
变化检测和空间参考表达:在所有变化检测任务中,TEOChat均显著优于Video-LLaVA和GeoChat。例如,在NBD建筑损坏分类任务中,TEOChat的F1值为50.0%,而Video-LLaVA仅为8.3%。
变化问答和基于区域的变化问答:在问答任务中,TEOChat在所有任务中的表现均优于基线VLMs。例如,在NBD变化问答任务中,TEOChat的准确率为89.9%,而GeoChat仅为34.0%。
时间参考表达和基于区域的时间问答:在时间参考表达和基于区域的时间问答任务中,TEOChat的准确率分别为74.9%和71.7%,显著高于Video-LLaVA(1.9%和26.5%)。
上手体验
作者在Huginnface上提供了一个demo可以用于简单验证。
我也进行了一些尝试。如下图
以及还有给定多个影像输入,要求完成时许分析任务的:
写在最后
TEOChat在包括时序变化检测和时序问答等任务上均表现出色。某些情况下,TEOChat不仅超越了许多专用模型,甚至在一些测试中超越了GPT-4o和Gemini-1.5 Pro等商用大模型。
能在非时序的单图像任务中,TEOChat同样展现出强大的场景分类和视觉问答能力,使其适用于更广泛的地球观测场景。
TEOChat作为时序地球观测领域的开创性工具,为遥感分析和环境监测提供了便捷的多模态解决方案。
利用这个模型,你也可以快速构建一个遥感时序分析任务的AI应用,做一些解决实际业务问题的场景化应用。
项目地址:https://github.com/ermongroup/TEOChat
arxiv地址:https://arxiv.org/abs/2410.06234