首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

如何快速构建一个遥感时序分析智能应用？TEOChat：首个专为遥感时序分析设计的多模态大模型

科技 2024-11-14 09:32 北京

近日，来自Stanford的Ermon小组推出了一款创新的多模态语言和视觉助手——TEOChat。

它专门用于分析和对话基于时序地球观测（EO）数据，展示了在多种复杂任务上的卓越性能，成为遥感时序任务领域的首个大模型应用。

笔者本人也体验了这个模型，发现很有意思，可以解决之前很多复杂的业务需求。推荐你也赶快尝试下！

解决什么问题

现有VLMs缺乏处理时间序列地球观测数据的能力
需要大规模的多模态指令数据集来训练模型
需要在单张图像和时间序列数据上都能表现良好的模型架构

TEOChatlas：全新的时间序列遥感数据集

这个项目的核心技术之一，是一个庞大的指令跟随数据集——TEOChatlas，包含50多万个示例。Ermon团队对这种超大规模训练数据的重视让人印象深刻，毕竟如果没有足够多样化的数据，这类大模型的实际表现往往会大打折扣。

TEOChat：首个遥感时序任务视觉语言模型

模型架构

TEOChat采用了LLaVA-1.5架构，包括一个时间共享的图像编码器（CLIP ViT-L/14）、一个2层MLP和一个LLM解码器（Llama 2）。图像编码器用于获取序列中每张图像的表示，MLP将视觉表示投影到LLM的输入，LLM解码器生成响应。

训练策略

为了保留预训练图像编码器和LLM的强大能力，同时最小化训练期间的内存使用，研究团队冻结了视觉编码器和投影器的权重，并使用Low-Rank Adaptation（LoRA）对LLM进行微调。

此外，还使用了8位量化来减少LLM权重的内存占用。

模型评估

时间场景分类：在fMoW RGB和Sentinel验证集上，TEOChat分别取得了75.1%和45.5%的准确率，显著优于Video-LLaVA（16.6%）和GeoChat（59.2%）。

变化检测和空间参考表达：在所有变化检测任务中，TEOChat均显著优于Video-LLaVA和GeoChat。例如，在NBD建筑损坏分类任务中，TEOChat的F1值为50.0%，而Video-LLaVA仅为8.3%。

变化问答和基于区域的变化问答：在问答任务中，TEOChat在所有任务中的表现均优于基线VLMs。例如，在NBD变化问答任务中，TEOChat的准确率为89.9%，而GeoChat仅为34.0%。

时间参考表达和基于区域的时间问答：在时间参考表达和基于区域的时间问答任务中，TEOChat的准确率分别为74.9%和71.7%，显著高于Video-LLaVA（1.9%和26.5%）。

上手体验

作者在Huginnface上提供了一个demo可以用于简单验证。

我也进行了一些尝试。如下图

给定Bounding Box，问是什么

输出地物的Bounding Box

以及还有给定多个影像输入，要求完成时许分析任务的：

写在最后

TEOChat在包括时序变化检测和时序问答等任务上均表现出色。某些情况下，TEOChat不仅超越了许多专用模型，甚至在一些测试中超越了GPT-4o和Gemini-1.5 Pro等商用大模型。

能在非时序的单图像任务中，TEOChat同样展现出强大的场景分类和视觉问答能力，使其适用于更广泛的地球观测场景。

TEOChat作为时序地球观测领域的开创性工具，为遥感分析和环境监测提供了便捷的多模态解决方案。

利用这个模型，你也可以快速构建一个遥感时序分析任务的AI应用，做一些解决实际业务问题的场景化应用。

项目地址：https://github.com/ermongroup/TEOChat

arxiv地址：https://arxiv.org/abs/2410.06234

http://mp.weixin.qq.com/s?__biz=MzI4NDY4MTMyNA==&mid=2247594528&idx=4&sn=7a2b22f7fa1b80f0af2433c8ed0e744e

测绘学术资讯

导航、遥感、GIS、地图、地理、大地测量、无人机、智慧城市、自然资源监测、等等学术、技术和资讯。

最新文章

三维激光扫描技术在老旧小区改造中的应用

带走调查！可疑男子手持三维激光扫描仪“逛”航展，想干啥？

地图制图新视界——智能牵引·设计加持

谷歌利用全球4千万部智能手机绘制电离层地图

一种遥感影像道路提取方法，分组无监督域适应

龚健雅院士 .开放地球引擎（OGE）研究进展与应用

热红外卫星看地球，这画面见过？

科技部：实证核验！短期内发表多篇论文、取得多项专利等成果的，明显不符合科研产出规律的

2010—2023年黄河口地区NDVI时空变化及驱动力分析

什么是大地水准面？

这些有趣的动物图案，见过吗？卫星看

“大陆黄金”的武里蒂卡金矿到底在哪？

多交通模式下青岛市医疗资源的可达性和公平性

专辑 | 关于地名，我们都分享过哪些

遥感影像人机协同智能解译系统，有哪些应用？以季度监测为例

北斗星基增强系统双频多星座服务性能研究

新书 |《城市地下空间地理信息系统》“十四五”普通高等教育研究生规划教材

《再见爱人第四季》取景地，卫星看

一种融合自适应点云特征提取的激光SLAM方法

地理知识之世界上著名的12条海峡

DInSAR地表形变监测数据处理流程

自然资源“1+X”变化监测方法的探索和实践

新书 |《地图投影计算机代数分析》边少锋李厚朴

这质量如何？长光卫星第四代技术验证星首批图像

什么是InSAR技术？

国家自然科学基金条例，2025年施行

Galileo高精度定位服务实时精密单点定位性能分析

广东东莞国土空间生态安全格局构建与分析

水利时空信息践行者陈捷，荣获2023年自然资源青年科技奖

如何快速构建一个遥感时序分析智能应用？TEOChat：首个专为遥感时序分析设计的多模态大模型

一种高分辨率遥感影像变化检测方法

境外黑手非法测绘，具体有哪些手段？

乌兰巴托的夜～唱的这个城市，整个国家一半的人都住在这里！来看→

一种无居民海岛现状勘定方法，基于倾斜摄影测量

四川康定8·3特大山洪泥石流发育特征及孕灾成因研究

《乡村爱情》拍摄地象牙山，在哪里？

标准地图 | 2024版三沙市、南沙区、西沙区

一种地基激光雷达提取单木树冠体积的方法

2024年大地测量学领域自然科学基金项目评审与资助成果分析

黄岩岛领海基线示意图来了，此时公布有何重要意义？

0.5米分辨率遥感数据免费下载（仅限今天，附开放数据下载流程）

中国政府就黄岩岛领海基线发表声明

我国南海部分岛礁标准名称公布！

SAR影像金沙江白格滑坡监测，Sentinel-1 及ALOS-2 PALSAR-2数据

如何将历史遥感影像转为高质量样本数据集？人机协同智能解译系统，FeatureStation试用一下

SAR的常见工作模式有哪几种？各有什么优缺点？

基于Mesh模型和激光点云的高精度三维场景重建

什么是海拔？1800 多年前古人如何测量山的高度？

一种高光谱图像地物分类方法，黄河三角洲为例，改进Transformer

国内国外学术会议的9个区别

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉