西南交通大学李志林教授:自主式情境化地图表达:大模型时代的智能化地图制图理论探讨 |《测绘学报》2024年53卷第11期

学术   2025-02-03 08:01   河北  

本文内容来源于《测绘学报》2024年第11期(审图号GS京(2024)2421号)


自主式情境化地图表达:大模型时代的智能化地图制图理论探讨


李志林,1,2,3徐柱1慎利1李精忠4蓝天,1王继成5赵婷婷6艾廷华7遆鹏1刘万增6陈军3,6

1.西南交通大学地球科学与工程学院,四川 成都 611756

2.西南交通大学深圳研究院,广东 深圳 518000

3.莫干山地信实验室,浙江 湖州 313200

4.兰州交通大学测绘与地理信息学院,甘肃 兰州 730070

5.四川师范大学西南土地资源评价与监测教育部重点实验室,四川 成都 610066

6.国家基础地理信息中心,北京 100830

7.武汉大学资源与环境科学学院,湖北 武汉 430079


摘要

通过智能化提升制图技术,让制图系统能全自动地完成地图设计与制作,一直是地图学界追求的目标,也一直是国际地图制图协会的前沿研究方向。从20世纪80年代开始,人工智能技术在地图学领域开始应用,逐步解决了部分工序的自动化问题,提高了地图制图的生产效率。然而,地图设计等关键环节的自动化水平仍然极低,无法满足信息时代的“定制化”“泛在化”制图需求。可喜的是,2023年以来,以GPT-4和Gemini等大语言模型(简称“大模型”)为代表的人工智能技术取得了突破,达到了“准通用人工智能”,表现出令人惊叹的语言理解力、推理能力和表达能力。基于此,本文探讨利用大模型来提升地图制图系统的智能水平,旨在建立新一代智能化制图理论与方法体系。首先,分析现有数字制图系统的瓶颈问题,指出建立新一代智能化制图技术的必要性;其次,分析大模型的性质与能力,论证建立新一代智能化制图技术的充分性;然后,进一步分析它们相结合的可能与方式,提出一个大模型时代的智能制图模式,并根据其根本性质与表征,将之称为情境化地图表达;最后,讨论情境化地图表达的关键技术问题,即自主觉知用图情境、自主设计制作地图及随境自主人机交互。

关键词

 智能化测绘地图制图情境化地图表达大模型

作者简介

第一作者:李志林(1960—),男,博士,教授,研究方向为空间数据多尺度建模与表达、空间信息理论与方法、遥感影像解译与信息提取。E-mail:dean.ge@home.swjtu.edu.cn

通信作者: 蓝天 E-mail:tianlan@swjtu.edu.cn


基金项目

国家自然科学基金(42394063)


本文引用格式

李志林, 徐柱, 慎利, 李精忠, 蓝天, 王继成, 赵婷婷, 艾廷华, 遆鹏, 刘万增, 陈军. 自主式情境化地图表达:大模型时代的智能化地图制图理论探讨[J]. 测绘学报, 2024, 53(11): 2043-2052 doi:10.11947/j . AGCS.2024.20240222.

LI Zhilin, XU Zhu, SHEN Li, LI Jingzhong, LAN Tian, WANG Jicheng, ZHAO Tingting, AI Tinghua, TI Peng, LIU Wanzeng, CHEN Jun. Autonomous situatedness map representation: a theoretical discussion on intelligent cartography in the era of large models[J]. Acta Geodaetica et Cartographica Sinica, 2024, 53(11): 2043-2052 doi:10.11947/j. AGCS.2024.20240222.

阅读全文

http://xb.chinasmp.com/article/2024/1001-1595/1001-1595-2024-11-2043.shtml

1 地图制图智能化从渐进式走向突破式

让制图系统全自动地完成地图设计与制作,一直是地图学界追求的目标,也是国际地图制图协会的前沿研究方向。智能化是其中的关键技术,因此各个时期人工智能新技术的出现历来都得到地图学界的及时研究与应用。
在20世纪80年代,随着知识工程技术的快速发展,符号主义专家系统在学术界获得了广泛的关注与应用。在此背景下,地图学领域的研究者们致力于构建专业的规则库,并开发了一系列专家系统,如地图制图专家系统[1-3]、地图设计专家系统[4-6]、制图综合专家系统[7-9]。然而,这些专家系统在应用范围和实用性方面存在一定的局限,这导致其逐渐式微。从20世纪80年代末期开始,行为主义智能算法的涌现为地图学领域带来了新的研究视角,如模拟退火、遗传算法、蚁群算法等,均在地图学中得到了有效的应用,涉及目标提取[10-12]、地图综合[13-16]、注记配置[17-21]、地图设计[22-23]、地图分析[24]等多个方面。然而,这些智能算法主要处理数值数据,缺乏系统地解决地图制图问题的完整策略,且在将地图知识数学化方面存在难度。近些年,以深度学习为代表的连接主义人工智能迅猛发展,在地图学界受到越来越多的关注。深度学习不仅能够赋能地图创意设计,实现专家知识经验支持下的艺术风格迁移,显著提升地图的艺术表现力[25],还被广泛应用于生成高画质地图[26-32]、地图空间认知[33-38]等方面。尽管学者们普遍认为深度学习在地图学领域具有巨大的潜力,但其在实际应用中仍面临着诸多挑战和局限性[39]
尽管人工智能技术在地图学领域的研究已取得显著进展,但距离实现制图系统全自动完成地图设计与制作的宏伟目标仍存在较大差距,尤其是“制图任务理解”和“地图设计”等关键工序的自动化程度低下。究其根本,当前的地图制图系统尚未达到真正意义上的智能化水平。普遍认为,智能化系统应具备以下两大特征:①采用人工智能的理论、方法和技术来处理信息和解决问题;②具有拟人智能的特性或功能。在大型语言模型出现之前,大多数人工智能技术尚属于弱人工智能范畴,缺乏类似人类的智能功能,这在一定程度上限制了全自动化制图系统的实现。
换言之,要实现真正的智能化,必须由具备拟人智能的人工智能技术支撑,即通用人工智能或强人工智能。令人欣喜的是,2023年人工智能领域取得了突破性进展。2023年3月14日,Open AI发布的语言大模型GPT-4展现出了令人惊叹的语言理解、推理和表达能力,并具备了相当丰富的知识储备。微软研究院的研究认为GPT-4是通用人工智能的早期版本[40],清华大学张钹院士则认为GPT-4已经触及了通用人工智能的门槛[41]。2023年12月6日,谷歌发布的Gemini模型更是被誉为迄今为止功能最强大、最通用的多模态人工智能,宣称其语言能力已超越人类[42]。这里不妨将这些最新的大模型理解为“准通用人工智能”(quasi-AGI),相信它们将赋予智能制图系统所需的强大智能,能够理解、学习、推理和决策并为地图制作的全自动化提供有效的技术支撑。因此,本文旨在探讨如何利用大模型来提升地图制图系统的智能水平,并建立一套新一代智能化地图的理论与方法体系。

2 新一代智能化地图技术的充要性与基本特点

要建立一套新一代智能化地图的新理论与方法体系,需要讨论3个问题,即充分性、必要性及基本特点。必要性是需求问题,充分性则是大模型的功能问题,而基本特点是指新理论的特点。

2.1 制图智能化突破的需求:从“预设情境”走向“开放情境”

数字制图可以分解成6个环节:需求理解、资料收集与处理、地图设计、快速制图、地图输出及地图服务。根据多个单位的生产实践,需求理解、资料收集与处理、地图设计这前3个环节的自动化程度仍然极低,现有数字制图系统较好地解决了后3个环节中的一些自动化问题,即通过模板化、流程化和算法来实现。
模板化制图其本质是“预设情境”下的制图技术,即事先预设制图情境并依赖人工完成对应的地图表达、地图交互和制图数据处理的设计。这种预设情境就好比餐馆里送菜的机器人,只能沿着预先设定的线路行走,而一旦离开预先情境便无法正常运作。对地图制图来说,预设的制图情境是通过人工对制图任务的理解来获取的,不仅耗费大量的时间和劳力,而且可能导致制图过程中出现多次返工的情况。在过去,地图制作往往采用标准化生产方式,如,一个校园地图可能只有一个标准版本,而个性化的用户需求往往没有得到充分的考虑。因此导致了一种“有什么给什么”的地图服务模式,即地图制作者提供什么,用户就只能接受什么,缺乏对用户个性化需求的响应和满足。
在当今信息化和移动化高度发达的时代,地图应用日趋广泛[43-52],地图制图服务正从“有什么给什么”的模板化逐步走向“要什么制什么”的定制化[53],即制图系统需要从“预设情境”走向“开放情境”。显然,传统的模板化制图模式无法满足当前的定制化需要。
开放情境下的地图制图系统最核心要求是其能自动且准确理解用户需求并高效地获取制图情境。这不仅涉及对语言文字的理解,更需扩展至对空间数据库以及地图或图像的深入解析。此外,另一个迫切需求是系统能实现给定制图情境下地图设计表达的自动化和制图数据获取与处理的自动化。因而要求系统不仅能够自主地获取并处理数据,还应能够独立构建设计文件,并最终生成高质量的地图。

2.2 大模型带来突破的可能性:从“专用性”走向“通用性”

2.1节分析了建立新一代智能化地图技术的必要性,下面探讨其充分性,即现在的人工智能技术(特别是大模型)能提供足够的技术支撑。
在当前人工智能领域,大模型特指那些以实现高级语言理解和生成能力为目标的大型语言模型。这类模型由具有海量参数的人工神经网络构成,通过在大量数据集上进行预训练,形成超大规模的深度学习架构。大模型的参数在数量上可与大脑皮层的神经元连接数相媲美,可以形象地比喻为模型的“连接数”。当这些连接数达到六七十亿量级时,原本不具备推理能力的模型开始展现出初步的推理功能;而当参数数量进一步增加至五六百亿时,模型的能力会经历一个显著的跃升,这种现象在学术界被称为“涌现”。此外,大模型的通用功能还表现在幻觉、语言能力迁移及逻辑增强等现象。实际上,现今的大模型已具备7大维度能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态,已被成功并广泛用于创意写作、语言翻译、代码生成、图像生成、数据分析等任务。
国外主要的大模型有Open AI的GPT、Meta的LLa MA、Google的Gemini等;而国内主要的大模型有百度的文心一言、阿里的通义千问、腾讯的混元、华为的盘古等。以ChatGPT为代表的人工智能生成内容(AI generated content,AIGC)的研究正如火如荼地展开,已有学者系统地回顾和分析了其在地图学领域的应用潜力[54-55]。在地图表达方面,一些学者开始评估ChatGPT等大语言模型用于地图表达的能力并提出了一些基于大模型的地图表达框架,如自主式地理信息系统LLM-Geo[56]、地理问答系统GeoQA Map[57]、自主式地图制图框架MapGPT[58]、基于ChatGPT的地图制图助手[59]等。在地图读图和解译方面的相关研究还比较缺乏,已有学者基于GPT-4V系统地评估了大模型与人眼目视检查相比的优缺点,结果表明GPT-4V不仅能够从不同比例尺和分辨率的多类型地图中检索信息,而且能进行简单的地图分析[60]。另一方面的研究是将ChatGPT用于制图与用图中的人机交互,让用户可以通过自然语言向制图系统发出指令[61]。结果表明,ChatGPT具备相当丰富的知识,强大的语言理解能力、推理和表达能力,具备了一定的空间地理空间理解能力,但是制图能力依赖一些外部条件,制图质量取决于用户干预。
总的来讲,不论是将大模型作为制图系统的自然语言交互引擎,还是以之为大脑的自主GPT,或是多模态生成式模型,都为制图系统的智能化带来了光明前景。然而,仅用大模型还不够,还需要融入地图制图与地图用图的人类知识(即自然智能)。这种融合不仅能够提升系统的理解能力和生成能力,还能够使系统在处理复杂制图任务时更加精准和高效。因此,未来的研究应当着重探索如何将大模型与制图自然智能相结合,以实现更加智能和人性化的制图系统。

2.3 新一代智能化制图技术的特点:自主式情境化

前文的讨论中已指出新一代智能化制图技术面临的主要挑战包括需求理解、地图设计、资料收集与处理等部分的自动化。结合当前大模型等人工智能技术的发展趋势与应用现状,本文认为新一代智能化制图技术应具备以下特征。
(1)制图情境觉知化。需求理解的任务需要系统来“觉知”(consciousness),其不仅涵盖了系统对用户指令的“觉悟”或“认知”,更强调系统能够结合制图用图的专业知识,发展出强大的推理能力。
(2)制图指令交互化。地图用户的要求(或指令)需要被制图系统自动理解,但经验表明理解需要多次迭代才能完成。故制图系统的设计需要考虑人机交互机制,以促进用户需求与系统响应之间的有效沟通。
(3)设计生成自主化。包括地图设计、资料收集(含数据处理)和地图生成,系统应能自主地完成这些任务。
(4)交互时空增强式。人机交互时不仅使用提示工程(即通过设计和优化输入提示来引导模型生成高质量和有针对性输出的技术),更重要的是通过时空增强等方式使系统能理解空间数据。
(5)制图智能混合式。目前大模型无法解决所有制图问题,需要在制图情境觉知、地图设计与生成、人机时空交互等地图表达的3个阶段,将人类制图知识与经验赋予制图系统,实现人类制图自然智能与机器智能的有效融合。
(6)制图过程多模态。在制图情境觉知、自主设计生成及时空增强交互等环节,要求系统能处理多模态空间数据。
在开放情境下的新一代智能化制图技术中,地图表达随制图情境而变,制图情境由系统自主觉知并通过时空增强的人机交互来实现,而制图情境随人随时而变。由此,制图情境成为新一代智能化制图技术的核心,而系统的自主化能力则成为其主要特征。这种智能化制图本文称之为“自主式情境化地图表达”(简称“情境化地图表达”),其理论框架如图1所示。

图1

图1   情境化地图表达的理论框架

Fig.1   The theoretical framework of situatedness map representation


3 自主式情境化地图表达的关键技术

2.3节提出了情境化地图表达的3大关键技术,分别为自主觉知用图情境、自主设计制作地图及随境自主人机交互,本节将对之进行深入分析。

3.1 自主觉知用图情境

地图情境觉知旨在从多个维度去理解地图,包括推断用户意图、解析地图语言及理解地图内容等。这一过程对提升地图系统的智能化水平和定制化服务能力至关重要,有助于实现地图与用户需求的精准对接,从而优化地图使用效果和提升用户体验。图2展示了一种切实可行的技术路线。

图2

图2   自主式制图情境觉知技术

Fig.2   Situation consciousness techniques of autonomous mapping


(1)基于时空增强自然语言模型的用户制图意图理解技术。具体而言,首先,通过时空增强的预训练命名实体识别模型与数据库,提取地理命名实体(如地点、城市)。其次,应用自然语言处理技术,特别是依存句法分析,捕捉地理实体间的时空关系;通过关键词匹配或机器学习分类器,区分用户操作类型(如查询、标记、路径规划)。然后,利用预训练的自然语言处理模型对地理信息和操作类型进行编码,生成时空语义表示,融合GIS空间分析方法,深化时空关系理解;通过深度神经网络技术,将时空语义表示与地图操作类型相结合,实现用户输入与地图操作的精准映射。最后,采用循环神经网络或Transformer模型,编码用户交互历史,分析地图数据库的动态变化,并结合地图更新历史,整合用户交互历史和地图动态变化,通过注意力机制或操作拼接,增强对用户意图的上下文感知。
(2)数据和知识联合驱动的地图语言判识技术。首先,构建基于知识和数据双驱动的混合智能计算模型,探索计算机视觉理解和自然语言处理两种任务中机器智能模型中融入制图人类自然智能的策略;其次,研究地图符号、比例尺等的计算机视觉理解方法,将其视为影像理解任务,并结合深度学习技术,嵌入人类制图知识,利用混合智能计算模型,提升对地图符号、比例尺等元素的精准识别能力;然后,专注于地图标注、图例说明等文字表达,融合制图领域知识于自然语言处理,生成精准语义表示,实现准确解析;最后,建立适用于上述方法的样本库,支持模型训练与评估,确保研究成果的可靠性和实用性。
(3)基于图-文-数跨模态融合的地图内容理解技术。首先,探索结合计算机视觉和地理信息数据库的方法,通过自动解析地图制图要素和地理信息数据库映射获取地理实体详细信息;然后,研究地图中视觉特征、标注文本和空间数据库信息的融合策略,探索统一的语义表示方法;最后,借助多模态认知模型,实现不同数据源信息的互补和关联,支撑对复杂地图场景的深入理解。

3.2 自主设计制作地图

自主设计制作地图的任务涉及根据系统觉知的情境参数,结合GPT技术与混合智能计算,研究地图的自主设计、数据自适应变换及地图场景化表达(地图生成)。该任务旨在利用多种数据源和模态的信息,通过生成式方法创建地图,并将地图内容与特定的情境相匹配,以更好地满足用户需求。其基本内容如图3所示。

图3

图3   多模态地图的情境化生成基本内容

Fig.3   Basic contents of situatedness generation for multimodal maps


(1)地图自主设计。多模态地图的情境化生成首先涉及地图设计,即确定地图的整体结构和显示的信息。在设计多模态地图之前,需要明确用户的需求和使用情境,这可能涉及不同类型的用户(行人、驾车者、游客等)以及不同情境下的地图使用(城市导航、旅游规划等);随后,确定地图将包含的多种模态,如地理信息、图像、语言描述等,这些模态可以来自卫星数据、传感器、社交媒体等多种数据源;最后,根据需求和表达模态,自主生成地图的风格、符号和交互元素,包括:①基于自然语言指令的个性化地图风格定制,进行自然语言解析提炼出其所隐含的地图风格特征,并基于情景模型自动提取地图风格;②多模态地图生成式设计,针对多图种、多层次、多用途、多用户和多级别泛地图表达需要,进行多模态地图模板、地图版式、地图表达模型、地图符号、注记和比例尺等生成式设计;③地图设计结果的形式化表达模型构建,针对地图设计的生成结果,构建形式化表达的生成式地图设计模型,模型涵盖地图的图层、符号、标注、图例、视图、布局等信息。
(2)数据自适应变换。地图设计确定后的数据变换包括多模态数据整合、语义理解和尺度变换等。此阶段将整合从不同数据源获取的地理信息、图像、文本等多模态数据,需针对多源异构制图数据在数据格式、语义、类型、空间基准等方面的差异,构建语义整合模型、多基准数据集成模型以及属性、几何、时态一致性融合模型,以便在地图中呈现多样化的信息;进一步地,利用自然语言处理技术对文本进行处理,将用户提供的语境信息转化为地图可以理解的语义,使地图更符合用户的需求。面向多尺度地图表达,对普通地理数据、三维场景数据和专题属性数据进行动态、光滑、连续的尺度变换,构建智能化时空数据综合模型;此外,地图的智能变换需要知识库的支撑,包括时空数据集成融合知识、空间结构知识、变换规则知识、变换过程决策知识、变换结果评价知识等。通过对各类知识进行形式化描述和知识图谱表达,可为智能地图变换提供自然智能支持。在数据变换过程中,关注情境感知是必要的,如基于自然语言处理技术理解用户提供的文本描述,基于计算机视觉技术从图像中提取有关环境的信息等。
(3)地图场景化表达(地图生成)。多模态地图在几何表达上具有二维平面、三维场景特征,在模式上具有地图、文本等模态特征,在应用场景上具有多载体和多样环境特征。首先,在对自然语言制图指令解译的基础上,进行任务理解与地图概要设计,包括地图风格的提取、多模态地图内容和形式的生成式设计以及地图设计的表达模型构建(对设计结果的形式化描述,记录了地图元素的布局及颜色符号配置等信息,通过改进Transformer模型可进行自主式地图设计);然后,进行多源制图数据的智能变换,构建地图变换知识库,由此面向多源异构数据进行集成融合变换、面向多尺度数据进行智能化尺度变换,其结果是制图数据的就绪化;最后,面向场景化应用进行多模态地图自主式生成,可改进CodeGPT自主调用地图制图API(如Mapbox GL JS等)求的个性化地图,如多维动态地图自主式生成、多载体地图自主式生成和多环境地图自主式生成。

3.3 随境自主人机交互

随境自主人机交互是一种多模态的情境化地图人机交互,即将人与计算机之间的交互嵌入制图的特定情境中,以提高用户体验和时空地图表达效率。这种人机交互基于情境觉知,通过营造情境化交互氛围,在智能提示的引导下进行时空增强的多模态交互,最终生成完善的情境化制图指令进行地图生成,主要内容如图4所示。

图4

图4   多模态情境化地图人机交互主要内容

Fig.4   Human-computer interaction of multimodal situatedness


(1)时空地图交互的情境化。时空地图交互的情境化旨在营造情境化交互氛围,从而保证交互的有效性,提升情境化人机交互下的地图表达能力。该过程主要依赖于对获取到的情景信息的深入分析,以及对自然语言处理大模型的领域知识和时空知识理解的增强。针对领域知识增强,首先构建领域知识增强的人机交互对话模型,然后综合多源信息构建领域知识样本数据集,最后通过提示工程和指令嵌入对语言大模型进行训练微调,以增强交互过程中对领域知识理解和表达;针对时空知识增强,首先构建面向空间关系以及地理关系的样本数据集并进行知识注入,实现时空增强的自然语言交互,然后通过构建关系和实体的特征嵌入库以及基于深度学习的特征匹配模型,实现时空知识在交互过程的准确表达。
(2)地图文本双模态交互。基于GUI的地图交互,如点选/绘制等,能够提供明确且精准的操作,在制图场景中,需要与自然语言交互进行协同。这种协同是自适应的,包括输入协同和表达协同。对传统基于GUI交互过程进行建模,根据输入/输出的形式构成交互指令,在此基础上形成指令样本数据集,结合基于表示学习的文本和地图信息的联合嵌入方法,实现多模态信息有效整合,根据提示工程和AI代理在制图过程中进行自适应交互。
(3)提示工程引导下的交互。用户制图意图会在交互过程中不断完善和变更,因此基于提示工程引导下的交互旨在准确掌握交互过程中用户的制图意图,并引导用户表达出清晰制图意图以优化地图的表达。包括:交互过程中的用户意图感知和引导,通过强化学习在交互上下文中学习用户的行为模式和反馈信号,完成对交互过程的管理。结合感知的用户意图和情境以及多种输入信息,构建多模态提示生成方法与时空信息提示库,在交互过程中进行基于提示工程的引导;由获取到的用户意图和情景信息,根据提示工程生成用户制图指令。

4 自主式情境化地图表达的展望

地图学家们早已认识到地图制图是一种需要高级智能的活动,而智能化是实现制图全自动化的必然途径。历史上,每当人工智能领域出现新技术,地图学界总是积极响应并探索其应用潜力。然而,传统人工智能技术并不能为地图制图提供充分的智能支撑。与此相对,当前被誉为准通用人工智能的大模型标志着实用人工智能技术的到来,其将带来一场深远的颠覆性变革。
为此,本文倡议建立一套基于大模型的智能化地图表达理论与方法体系,旨在突破现行“预设情境下”数字制图面临的自动化程度上的技术天花板,目标是推动“开放情境下”的自主式智能制图技术,以实现更高层次的自动化和智能化。该理论与方法将使制图系统能够在实时掌握现实世界动态的基础上,积极响应制图需求、持续回应用户指令、精确理解用户意图、充分顾及用户偏好、恰当运用制图形式、即时生成精美表达从而实现新一代智能化制图的愿景。希望在不远的将来,情境化表达系统能变成智能手机中的一项常用应用。用户只需提出需求,系统便能理解并制作出所需的地图;若用户有新的修改要求,系统也能够迅速响应并进行调整。尽管当前的研究成果与这一目标尚有差距,但通过不懈的努力和研究,这一愿景终将实现。
智能化制图是智能化测绘的重要部分之一。当前,智能化测绘领域尚处于初期发展阶段,相关研究比较零散,系统性理论框架和方法论仍在构建之中。尽管如此,相信随着研究的深入和技术的进步,未来智能化测绘将展现出其独特的价值和潜力,我们将看到智能化测绘带来的各种新景象。




初审:张艳玲
复审:宋启凡
终审:金   君

往期推荐

资讯


○ 关于举办2025年测绘地理信息高质量发展论坛暨《测绘学报》学术年会的预通知

○ 河海大学海洋学院发布人才招聘公告!

○ 招聘信息 | 海南长光卫星信息技术有限公司2025年招聘

○ 航天恒星科技有限公司2025届校园招聘(遥感地信测绘等)

○《测绘学报(英文版)》2024年第4期发布

智绘科服
更具学术格局的自然资源传媒
 最新文章