点这里👇关注我,记得标星哦~
前言
依稀记得十年前,我在上遥感概论专业课时,老师带我们用ERDAS IMAGINE遥感图像处理软件做地物分类,每个人电脑上先发一段区域的遥感影像,进行人工判读和标注,比如把这个区域影像上的林地标注出来喂给模型,再用这个模型去识别另外一个区域影像中的林地,机器学习中典型的的有监督学习应用。
大概5年前,在和公司研发人员闲聊时,聊到公司在做的“三调”项目,公司数据工程师当时正日夜对着国家下发的卫星影像,进行地物分类和矢量化的工作,不可谓不辛苦。当时和研发讨论这个工作应该交给AI来做,至少先让AI对全国遥感影像做一遍再交给人工检查核对。纯人工去做地物识别太慢了、成本太大,加上每个人对地物的理解还不一样,人工判读地物特征很容易出错,非常考验数据工程师的经验和责任心。
SuperMap iDesktopX 11i(2024)-机器学习
现在来看,这类有监督学习的模型没有大规模应用,一是标注成本太高而且准确率一般。二是模型泛化性太差,可能在南方某区域训练的拿到北方去用就不好使了。
在当时,全国这么大范围的遥感影像地物识别,想着这个工作应该互联网科技巨头可以做好,例如谷歌。
简单解释一下提到的几个概念:
“三调”:是指中国的第三次全国国土调查,说白了就是查清全国每块土地的现状,这块地是耕地,那块地是居住用地,形成一张全国土地现状的数据库。
地物分类:网上找了一张图,大概过程就是拿着国家下发的卫星影像,使用专业的GIS软件,根据经验进行地物的识别,把各种地物的边缘轮廓给勾勒出来形成一个闭合的面,然后赋予它的地类属性,存到空间数据库。比如下面这张图,红色是我描的,这块地应该是水田。“三调”工作对全国960万平方公里的土地进行上述过程。
地物分类的过程像AI里面的人工标注数据。
GIS(地理信息系统)软件是一种用于处理和分析地理数据的工具。简单来说,它帮助我们以地图的形式查看和理解数据,比如分析人口分布、规划城市道路或者研究环境变化。手机中最常使用的地图软件、定位功能,就使用了GIS相关技术。
大模型的出现深刻改变着我们的生活,也正深刻改变着GIS。
交互层面的革新
GeoForge是由Ageospatial公司开发的一个基于大语言模型(GeoLLMs)的地理空间分析平台。GeoForg的目的是使每个人都可以轻松进行地图绘制和地理空间分析,无论您是外行还是专家。
下面是它的录屏,从录屏可以看出,交互基本由自然语言进行。
ArcGIS做的AI助手:
而现在的GIS软件界面长这样,跟一般的生产力工具软件界面差不多。
ArcGIS Pro
QGIS
在这一波大模型的影响下,GIS软件也将由图形用户界面(GUI)向自然语言交互界面演进。
最近在使用Claude、ChatGPT出的画布模式,给了我一些启发。ChatGPT canvas在原先对话框交互的基础上增加了画布,在遇到文字编辑和代码编写时会自动弹出画布进行进一步展示和编辑,整体界面上还是保持简单。
未来当我们打开GIS软件时,应该是一个被大模型深度赋能的软件。
左侧可能是一个对话框,通过自然语言交互,支持文字或语音输入,它能理解用户的请求,知道如何使用GIS软件的每个功能、地理专业术语。
对于不懂如何使用的操作、技巧、遇到的问题,可以随时呼出大模型进行解答。
中间是一个地图,由于GIS软件的大部分操作都是围绕地图展开,地图相当于画布。
工具箱和上方导航栏的软件操作可能是隐藏起来的。
大模型赋能的应用
下面我将就具体例子说一下我看到的和想到的。
地图制图:
套用今年很火的Agent概念,GIS领域的复杂任务自动化处理和分析将得到增强。
如今年中国地质大学提出的制图MapGPT,利用大模型的推理能力,根据用户请求,对任务进行规划分解并调用一系列的制图工具完成自动化制图。
地图初始化➡️添加地图图层➡️修改地图元素参数➡️添加地图元素➡️保存输出地图。
把繁琐的操作交给大模型,用户只发出指令-确认成果-修改-再发出修改指令,人机工协作,减轻工作量。
最近极海王昊老师使用大模型来生成各种风格的地图,还挺有启发的,我也对着照做了一遍,过程如下 现代与传统GIS的争论已经不重要
1.找一张参考地图的样式,将这张图片发给多模态大模型(GPT-4o等),让它分析地图样式并生成对应的json文件
2.找一个支持Google地图样式的网站,粘贴刚刚生成的json文件
3.生成效果如下:
对于地图制图,我觉得还可以尝试利用文生图模型来提供创意,帮助生成更好看的地图。
属性表的操作:
属性表的操作,这是GIS软件一个很重要的功能,本质上是写SQL语句对属性表的数据做增删改查,为了降低普通用户操作数据库表的难度,GIS软件提供了一些的操作功能来降低SQL的门槛。这里还可以进一步降低门槛,那就是利用NL to SQL的技术,直接把自然语言转成SQL进行数据的增删改查操作。
类似于这张图:
ModelBuilder(模型构建器):
熟悉GIS软件的应该都知道,模型构建器将一系列地理处理工具串联在一起,以可视化编程的方式处理重复、复杂的处理任务。
可以借助大模型的推理能力进行空间计算任务的自动编排,这篇文章的最后具体阐述了实现过程。当 GIS 遇上 AI 大模型
就我个人看到的厂商例子和实践而言,目前这个阶段想让大模型依靠自身的推理能力完成比较复杂的GIS任务规划,是比较困难的。也许未来使用强化学习、思维链训练的o1模型可以,也许我们需要GIS领域的思维链来对大模型做微调训练。
所以今年很多厂商都推出了基于工作流的智能体构建,就是为了应对各专业领域复杂问题,如扣子这种大模型应用构建平台。其实跟上面介绍的模型构建器很像,只不过扣子是围绕大模型的能力展开,用低代码的方式串联工具和大模型来处理复杂任务,构建应用。模型构建器是围绕空间分析算子的能力展开。
两个类似功能的产品使用下来,还是扣子使用起来简单,尤其有一个小功能对小白来说很适合,在代码节点,可以随时呼出AI,帮你写代码节点中的处理逻辑代码,非常实用。
还有发布智能体、工作流模板到社区,可以分享给他人使用,交流使用技巧,赚积分等等,玩法多样,对于活跃社区,促进软件使用交流很有帮助。对于GIS软件来说也是很有借鉴意义。
当然了,现在的大模型,配置一般的电脑很难带得动,可以考虑在GIS软件上做一个设置,这个设置可以连接云端的通用大模型API和对应的key,类似于之前体验的沉浸式翻译插件的做法,提供配置API key的功能 用了就离不开的网页翻译插件,沉浸式翻译使用体验
对于可以联通互联网的用户,设置自己的大模型API key,用多少token,出多少token钱。
在内网的用户,可以连接内网部署的大模型。
当然了,为了方便,GIS厂商可以设置一定的免费额度或者包月的形式提供给用户,免去设置API的麻烦。
遥感影像、视频识别:
最近,深度学习之父辛顿拿了诺贝尔物理学奖,看了辛顿老爷子的简史,2012年10月,辛顿团队在佛罗伦萨举行的计算机视觉会议上介绍了冠军算法AlexNet,相比谷歌猫用了16000颗CPU,AlexNet只用了4颗英伟达GPU,学术界和产业界彻底轰动,AlexNet的论文成为计算机科学史上最有影响力的论文之一。
所以在2014年,我们上大学时用机器学习的遥感分类模型做地物提取是很正常的,因为那个时候深度学习才开始真正走进大众视野。这篇文章写了很多关于这段过往,推荐阅读。 2012,改变人类命运的180天
以“Transformer”网络架构为核心的大模型技术出现后,已经有不少基于(或者叠加)Transformer结构来优化遥感影像的识别和提取。
去年Facebook公布的SAM模型,也有很多厂商基于SAM模型来做遥感图像分割提取的尝试。
还有现在大模型厂商和自动驾驶厂商的推出的视觉语言模型,提高了自动驾驶系统的感知能力和决策水平,可实时监测并分析视频画面中的异常情况,并通过自然语言生成警报信息,应用在视频监测场景很有应用潜力。
还有3D生成、三维重建,由于不太了解,这里就不赘述。
对公司产品、公司组织:
国内GIS软件行业,定制化、项目化比较多,导致人力成本大,利润率不高。AI 大模型写代码能力带来人效的提升,也许未来项目制不是问题?
不难想象,随着AI应用的不断深入到行业,能力不断强化,个体能效不断提升,这将极大地降低人力成本,对于人力密集型和知识密集型服务业市场将是巨大冲击,比如律师,会计,编辑,程序员等行业。
有了AI加持,同样的事情可能会使用很少的人就能搞定,进而显著降低了企业在开发软件时所需的人力成本,提升企业的市场竞争优势。这样传统的人力外包型业务将快速被服务型AI应用所替代,外包化将更加流行。
地理信息系统及其他地理空间解决方案,对于分析和理解我们周围的世界至关重要,但对许多人来说,使用和理解起来却十分困难。
对于初学者或者只是想利用GIS软件简单做一些成果的用户来说,GIS软件地理专业术语多,操作复杂,对于新手极其不友好,在易用性方面有很大的改进空间。
总之,这波大模型浪潮下,GIS软件的智能化和易用性还有很大提升空间。
以上仅是笔者的个人看法,欢迎交流。
参考资料:
成果分享 | MapGPT:集成大语言模型和制图工具的自主制图框架
https://highearthorbit.com/articles/announcing-ai-assistants-for-arcgis/