王密,1, 程昫,1, 潘俊1, 皮英冬1, 肖晶2
1.
2.
本文内容来源于《测绘学报》2024年第10期(审图号GS京(2024)2165号),授权转载公众号:智绘科服
大模型从深度学习和迁移学习技术发展而来,依靠大量的训练数据和庞大的参数容量产生规模效应,从而激发了模型的涌现能力,在众多下游任务中展现了强大的泛化性和适应性。以ChatGPT、SAM为代表的大模型标志着通用人工智能时代的到来,为地球空间信息处理的自动化与智能化提供了新的理论与技术。为了进一步探索大模型赋能泛摄影测量领域的方法与途径,本文回顾了摄影测量领域的基本问题和任务内涵,总结了深度学习方法在摄影测量智能处理中的研究成果,分析了面向特定任务的监督预训练方法的优势与局限;阐述了通用人工智能大模型的特点及研究进展,关注大模型在基础视觉任务中的场景泛化性以及三维表征方面的潜力;从训练数据、模型微调策略和异构多模态数据融合处理3个方面,探讨了大模型技术在摄影测量领域当前面临的挑战与发展趋势。
大模型;智能摄影测量;深度学习;多模态
第一作者:王密(1974—),男,博士,教授,博士生导师,主要研究方向为高精度智能卫星遥感技术。E-mail:wangmi@whu.edu.cn
通讯作者: 程昫 E-mail:xucheng@whu.edu.cn
国家重点研发计划 (2022YFB3902804 );国家杰出青年科学基金 (62425102 )
第一作者:王密(1974—),男,博士,教授,博士生导师,主要研究方向为高精度智能卫星遥感技术。E-mail:
通讯作者: 程昫 E-mail:xucheng@whu.edu.cn
王密, 程昫, 潘俊, 皮英冬, 肖晶.
WANG Mi, CHENG Xu, PAN Jun, PI Yingdong, XIAO Jing.
作为测绘科学体系下的分支学科,摄影测量学是通过影像研究信息的获取、处理和成果表达的一门信息科学[1-2]。广义上,摄影测量利用多时相、多尺度、多视角、多模态的天空地一体化综合观测手段[3],可以提供不同时间分辨率、空间分辨率和波谱分辨率的二维图像和空间三维信息,发展并扩充到遥感范畴,同时结合导航定位、地理信息系统、计算机视觉和人工智能等多门学科的前沿技术,实现地球空间信息的数字化与基础空间数据框架的构建[4]。
人工智能的概念从20世纪60年代提出至今,在算力、算法方面历经多次革新。ImageNet数据集[5]推动了监督预训练范式下深度学习模型的发展,在图像分类、目标检测和语义分割等基础视觉任务上超越了经典的特征工程与机器学习方法。随着数据和模型规模不断扩大,传统AI逐步迈入AI大模型时代。一些基于超大规模数据集训练的千亿参数大模型,如GPT系列[6],在自然语言处理任务中表现出强大的性能,并逐步触达视觉及音频处理领域。从技术角度上看,大模型背后的一系列支撑理论如深度神经网络、自监督学习和迁移学习等方法早已具备广泛的研究基础,规模效应催化了大模型的涌现能力[7]。与面向特定任务的中小规模神经网络相比,大模型能够适应多种类型的下游任务,可以在未经明确训练的任务上表现出强大的泛化能力。
以深度学习为主流的人工智能技术推动了摄影测量智能化发展[8]。尽管经典的摄影测量方法具有严密的数学理论,已广泛运用于近景、航空和卫星场景,从深度学习出发探讨新的解决方法仍具意义。从概念上来看,深度学习方法扩充了原本基于点、线的特征表达,通过引入不同尺度的语义信息改善传统方法的性能,在语义与几何一体化处理方面具有天然优势。然而,现有方法往往无法扩展到数据集之外的场景。大模型则有望为广泛的下游任务提供同质化的基础网络架构,在模型通用性与适应性方面取得突破[9-10]。
为了进一步探讨AI大模型时代下摄影测量智能处理的新范式,本文首先对摄影测量领域的基本问题和任务内涵进行回顾;其次,总结深度学习方法在摄影测量智能处理中的研究成果,分析面向特定任务的监督预训练方法的优势与局限;然后,阐述通用人工智能大模型的特点及研究进展,关注大模型在基础视觉任务中的场景泛化性以及三维表征方面的潜力;最后,从训练数据、微调策略和异构多模态融合处理3个方面,展望当前阶段摄影测量领域结合大模型能力所面临的挑战与发展趋势。
1 摄影测量的基本问题与任务内涵
1.1 基本问题
摄影测量的发展历程是技术进步和应用需求相互促进的结果。从模拟摄影测量、解析摄影测量到数字摄影测量,每一阶段都显著提升了数据处理的效率和测量的精度,现今正步入智能摄影测量的时代。从测绘的角度看,摄影测量的基本问题可以归纳为3个方面:解析问题、对应问题和语义问题。
解析问题,通常指的是从影像等摄影测量数据中解算摄影时刻相机和被摄物体几何信息的一类问题,包含相机标定、相机定向与三维重建等方面的具体内容。成像过程往往根据严格的数学物理模型进行模拟,如共线方程、共面方程、光束法平差,以及计算机视觉领域提出的运动恢复结构和多视角立体等方法,从而保证空间三维坐标的解算精度和效率达到较高水平。在控制信息的约束下,解算后的影像、三维模型、DEM和DSM等对地观测产品被纳入统一坐标系,为新获取的数据及后续分析提供空间基准。
对应问题,需要确定两个或多个影像中相同物体或特征点的匹配关系,从而建立观测数据的关联性。在立体摄影测量和多视角重建中,特征匹配、密集匹配过程都涉及从不同角度拍摄的影像中寻找同名点的过程。面对弱纹理、重复纹理或因视角和光照变化而导致的地物外观差异等问题,一方面需要构建特征点的可靠描述,另一方面需要剔除异常匹配,进而形成对于特征表征的稳健性与唯一性的两大要求。此外,在多传感器综合观测体系下,不同来源的数据在尺度、光谱特征及成像机理方面的差异,为解决对应性问题带来新的挑战。
语义问题,关注于理解和解释影像内容的含义,即从影像中识别和分类对象,并理解它们在现实世界中的角色和关系。在摄影测量中,通常包括从航空或卫星图像中识别建筑物、道路、植被等常见要素,以及加入时间维度后的变化监测任务等。然而,语义问题并非仅仅关注识别和分类地物,更需要理解对象在不同语义层次上的关系和作用。解决语义问题的核心,在于将数据驱动与知识驱动的方法相结合,使机器代替人类专家准确高效地获取有意义、可操作性强的信息,支撑后续推理与决策。
这3个问题共同构成了摄影测量学的核心挑战,解决这些问题需要综合运用数学、物理、计算机科学和地理信息科学的知识和技术。
1.2 任务内涵
随着摄影测量技术的不断发展,摄影测量任务的内涵与边界也不断扩充与延伸。早期的摄影测量主要用于地图绘制和简单的地形测绘,这些工作通常依赖于大型模拟摄影测量设备,借助光学或机械交会等物理测图手段避免复杂计算,如使用立体测图仪对比影像中的同名点,手动进行测绘。在解析摄影测量时代,电子计算机根据像点与相应地面点间的数学关系,使用数字投影代替物理投影实时解算被摄物体的空间位置。然而,对应性问题并未很好解答,往往需要大量的人工干预和专业知识,耗时且效率低下。随着数字成像技术的发展,摄影测量开始向数字化转型,减少了对物理照片的依赖,提高了数据处理的速度和精度。数字图像处理、模式识别和计算机视觉领域相关技术的发展极大提高了摄影测量的效率和应用范围,包括使用算法自动识别图像中的特征点,自动完成图像对应和配准。随着无人机技术、航天载荷及遥感技术的进步,摄影测量能够提供实时或近实时的数据采集和处理能力,使得自然资源管理、城市规划、灾害响应等领域变得更加高效和精确。人工智能和深度学习技术的应用极大地增强了摄影测量的能力,特别是在图像识别、分类和语义分析方面,通过自动解释和分析图像内容,提供高度精确的地理信息和决策支持。
摄影测量的发展历程体现了从传统测绘任务向高效、实时、自动化与智能化信息服务的转变。现代摄影测量系统应当能够集成包括卫星数据、无人机数据和地面观测数据等多种数据源,并结合先进的计算技术、大数据分析和人工智能技术,提供不仅限于地图制作、环境保护、自动驾驶和智慧城市建设等多个领域综合的智能信息服务,以满足不断增长的社会和经济需求。
2 深度学习在摄影测量领域的应用
以深度学习为代表的人工智能技术一方面改善了遥感语义特征提取的完整性和可靠性,另一方面通过与广义控制资料结合,提升了多源遥感影像几何处理的精度和自动化水平,开辟了摄影测量语义与几何信息智能处理的方向。图1展示了深度学习在摄影测量领域的相关应用。
图1 深度学习在摄影测量领域的相关应用
深度学习方法扩充了原本基于点、线的特征表达,卷积神经网络能够捕获场景中的高级语义特征,学习到影像之间抽象的共同模式。SuperPoint[11]提出一种端到端的特征提取与描述网络,能够提取更为密集的特征点,并且在立体像对的单应关系上获得更准确的估计。在匹配层面,与传统启发式规则相比,SuperGlue[12]利用基于注意力机制的图神经网络,在端到端架构上同时执行上下文聚合、匹配和过滤等策略并实现GPU实时处理,是深度学习匹配算法的一个里程碑。多源遥感数据时空谱融合方面,深度学习方法对于不同波段、成像模式等带来的非线性辐射差异和大视角变化带来的几何差异具有较好的稳健性[13]。
深度学习能够自动识别卫星和航空影像中的建筑、道路、水体等各种地物,广泛运用于语义专题图制作[14]、地表常态化与智能化检测[15]等测绘任务,极大提高了从航空和卫星图像中提取信息的速度和准确性。基于MaskRCNN的分割算法代替了超像素分割等传统方法,能够提供包含对象类别信息的精确分割掩膜。在三维语义处理方面,MVCNN[16-17]将多视角影像的分割结果映射到三维目标表面,利用已有的二维分割网络完成三维形状的语义分割任务,但存在三维到二维的信息损失和跨视角语义兼容性等问题。一些研究[18-19]将卷积操作应用于三维体素网格,然而基于体素的方法存在离散采样带来的分辨率下降及三维卷积开销等问题。PointNet[20]、PointNet++[21]为点云处理提供了强大高效的特征提取器,但点云未明确定义邻域及连通性,不利于局部特征的描述。MeshCNN[22]为非结构化三维数据重新设计了卷积和池化操作,实现基于多边形网格的三维表征与拓扑处理。然而,三维语义方面的研究仍然存在训练数据缺乏、模型复杂度较高导致推理速度较慢、计算机内存占用过高等多方面的问题。
深度学习在三维重建的密集匹配方法中取得一定的进展。根据处理影像的数量,基于学习的影像密集匹配方法可以分为双目立体和多视立体网络。MVSNet[23]提出一种基于可微分单应变换的三维代价立方体构建方法,实现了大规模场景下的多视图深度估计架构。在此基础上,一些方法增加了尺度感知[24-25]、匹配可靠性评估[26]、像素可视性估计[27-28]及对象级语义提取[29]等模块进一步提高重建的精度和效率。这些方法一方面利用深度网络提取的特征代替复杂的、基于经验的指标设计,另一方面利用三维卷积和激活函数对匹配代价立方体进行规则化,实现邻域相关性处理策略,从而提高深度估计的精度。此外,深度学习对于影像未捕获的三维场景重构与推理具有一定优势。考虑到人眼凭借视觉经验可以通过单目感知场景深度,一些方法通过深度细化网络引入场景先验,实现从单张图像直接恢复场景的体素网格[30-31]、点云[32]或三角网格模型[33],但在结果可靠性、模型可解释性和泛化性方面有待提高。
深度学习在视觉表征、语义关联和常识推理方面具有天然的优势。然而,监督预训练的范式依赖于精心制作的样本标签和注释,限制了模型规模和任务扩展能力,无法实现通用的视觉理解。如何克服训练样本不足、减少对显式注释的依赖,以及提高模型在不同场景的泛化性是进一步改善深度学习在摄影测量智能处理表现的关键。
3 大模型赋能智能摄影测量
3.1 通用人工智能大模型的特点与发展进程
大模型具有规模化、涌现与同质化的基本特点。规模化在于其模型参数量通常在数百万到数十亿甚至更多不等,使用包含数百万到数十亿个样本的大规模数据集进行训练,从而支撑大模型庞大的知识容量和复杂的表示能力。大模型的涌现能力在于其能够在未明确训练的任务上表现出强大的泛化性,即零样本泛化(Zero-Shot)。同质化则更多地强调大模型作为通用基础设施的能力,多种类型的任务都可以共用同一个模型,且能够在不同程度的数据扰动下保持模型输出的稳定。
以ChatGPT为代表的大型语言模型在广泛的下游任务中展现了强大的适应性,为视觉领域提供了参考。根据训练数据的不同,发展出了3类视觉相关的大模型架构:视觉-语言大模型、视觉大模型及包含视觉信号的多模态大模型。
由自然语言处理迁移到视觉领域的一个自然想法是联合视觉和语言模态共同训练。OpenAI在2021年提出的视觉-语言大模型CLIP[34]通过将图像、文本独立映射到统一的向量空间下进行模态相似性评估,完成4亿图像-文本对的联合训练。在此基础上,一些研究通过冻结视觉编码参数[35]、文本编码参数[36]或者仅调整模态融合参数[37],将离线训练好的单模态网络直接嵌入视觉-语言联合处理架构。由于单张图像往往对应多种不同的文本描述,文献[38]提出一种跨层级的模态对齐方法,用于解决不同尺度下图像和文本描述的语义兼容性问题,进一步提高了图像与文本表征的关联性。
另一类以视觉感知为中心的方法将模型输入、输出统一为图像形式,并使用视觉信号作为补充输入的提示信息。如,SegGPT[39]实现了一种基于上下文示例的通用分割框架,用户通过提供示例图像和对应分割掩码指示分割任务的类型和要求。SAM[40]则利用点、框等视觉符号提示画面中的兴趣区域,实现了一种通用的交互式分割模型。
从发展通用人工智能的角度来看,融合不同传感器获取的多模态异构数据可以实现大模型感知层面上的互补,逐渐成为大模型领域的一大发展趋势。Macaw-LLM[41]独立训练不同模态的特征编码方式,并借助交叉注意力机制完成模态融合,实现图像、文本、视频和音频4种模态的关联。ImageBind[42]将图像当作桥梁,利用多种模态与图像的配对数据学习统一的表征空间,实现图像与其余5类数据的联合感知。Meta-Transformer[43]使用单个编码器共同学习图像、文本、视频、音频、惯性测量单元、点云等12种模态信息,摆脱对模态配对数据的依赖,探索多模态数据的共享编码方法。这些研究表明不同模态之间的语义对齐有利于提高模型通用理解与推理能力。为了探索高效的三维场景感知框架,ULIP[44]利用预训练好的视觉-语言大模型,借助使用少量自动合成的“图像-文本-点云”三元组,学习与通用的“图像-文本”空间对齐的三维表征空间。类似地,Uni3D[45]提出了一个包含10亿参数的三维表征模型,通过进一步扩大模型规模,实现统一、可扩展的三维表征方式,弥补大模型技术在二维和三维视觉之间的差距。
3.2 基于大模型的摄影测量智能处理与分析
大模型的兴起在许多行业引发了革命性的变革。如图2所示,以大模型为中心的生态体系围绕预训练和微调的基本范式延伸,包含数据集制作、模型架构设计、模型预训练、高效参数微调、模型的部署与评测多个环节,构建了通用基础模型到专业领域应用落地的完整流程。实际中,不同领域的学者往往侧重对系统中某个特定环节进行研究。为充分释放大模型能力,应当从系统设计的角度出发,整体把握各环节的基本原则和相关理论。
图2 基于大模型的摄影测量智能处理与分析
通用大模型的开发在数据集制作和算力资源上具有一定门槛。相比基础模型的开发工作,如何利用已有大模型能力完成跨领域的知识共享与迁移,成为包括摄影测量领域在内的多学科面临的共同问题。如图2所示,根据摄影测量的基本问题和任务使命,结合大模型的发展趋势及其生态体系建设的原则,该过程涉及专业数据集制作、高效参数微调和异构多模态数据融合等多方面挑战。
3.2.1 专业数据集引导的跨领域知识共享与转移
通用大模型能力的迁移需要借助摄影测量领域的专业数据、信息与知识。相比于通用数据的存储管理等问题,专业数据则面临着有效数据不足的情况。基本的数据增强方法如平移、旋转和缩放等,在面向特定任务的深度学习任务中表现出一定效果[46],但对于数据分布的多样性改善作用不大。以扩散模型[47]为代表的生成式方法进一步改善了模型的数据依赖,通过前向扩散过程向原始数据分布逐步添加随机噪声,反向过程则将噪声逆转以重建数据样本。然而,尽管“伪”数据部分改善了训练样本不足的问题,但其质量并不可控,可能造成模型崩溃[48]。因此,在专业数据集制作的过程中需要包含以下几点考虑。
(1)借助多时相、多尺度、多视角的多源数据扩充场景多样性。由于不同平台、传感器的成像机理和场景目标几何、辐射特性等方面存在差异,单一数据源无法全面捕捉地物特性。RingMo[49]通过结合光学、SAR等多源遥感影像在遥感解译任务取得显著成果,表明多源数据融合有利于提高模型对于不同地物种类、不同影像类型、不同成像时间和谱段的泛化能力。然而,过高的标注成本是高质量数据集制作的一大阻碍,在摄影测量领域,一种常见的做法是利用时空标签充分挖掘数据之间的相关性,从而构建自监督损失函数。如,利用不同时期覆盖同一地表区域的影像序列构建正样本,以及关联带GPS信息的街景影像和同一场景的卫星视角。借助摄影测量数据的时空标签,挖掘样本之间的时间及空间关系,减少人工标注成本。
海量、多模态的数据同时带来数据收集、跨模态整合和数据质量评估等多方面挑战,从互联网获取的数据还需考虑数据合法性、数据偏见等问题。尽管有研究表明数据规模的提升有利于噪声抑制[50],数据集制作过程中仍需要进行数据清洗和过滤等劳动密集的工作。一些大模型的数据集制作过程借鉴了此前中小规模深度学习的数据收集、存储及管理方法体系,借助可视化工具[51-52]识别不良数据、改善注释质量,以此提高人工作业效果及效率。
(2)弥补空间三维数据的稀缺,选择合适的三维表示方式。空间几何信息的处理是摄影测量的关键目标之一。然而,高质量的三维数据集大多规模中等且类别有限[53-56],限制了大模型在空间感知和三维表征方面的能力。Objaverse数据集[57]通过抓取艺术家和创作者在线发布的三维模型及其附属说明、标签等数据,实现了一个包含文本描述的大规模三维模型开放数据集,一定程度上缓解了三维数据稀缺的问题。DL3DV-10K[58]通过拍摄真实场景的多视角高清视频,收集了不同光照条件下室内外多种类型物体的多视角图像及外观信息,为开发通用NeRF及三维表征模型提供数据支持。
然而,原始三维数据的输入空间会影响空间信息编码的方式与效率,SAM3D[59]提供了一种基于多视角图像的三维场景表征学习方法。类似地,SA3D[60]通过单个视图上的一次手动提示生成关联视角下的自动提示,将大模型的通用图像分割能力扩展到三维场景。结合已有的视觉-语言大模型,Uni3D[45]、ULIP[44]通过对齐点云与常规的图像-文本数据,关联不同维度的视觉特征,并通过大规模的场景-文本数据提升三维视觉-语言定位能力。神经辐射场(neural radiance fields,NeRF)提供了一种基于连续标量函数的隐式三维表示方法,在大规模场景重建、视角合成和高质量渲染方面取得突破[61]。然而,经典NeRF通常需要花费大量时间学习单个场景,且无法快速扩展到新的场景。一些研究通过扩大数据规模与场景多样性,实现基于NeRF的城市级高质量、高真实感三维渲染,提升了场景的泛化性。如,书生-天际大模型[62]融合从卫星到近景的多尺度影像数据,在超过100 km2的城市范围内实现网络的高效训练;Block-NeRF[63]采集了280万张图片用于构建旧金山街区三维实景,进一步处理影像中存在的几何外观变化、光照差异等情况。研究表明,适当引入光照条件和物体材质等方面的信息能进一步推动精细化、真实感三维场景通用先验知识的获取。
摄影测量和计算机视觉领域一直在寻求高效感知、分析和理解三维环境的方式,从而模拟人类的空间感知能力。大模型为获取场景结构、目标位置、拓扑属性等信息,辅助空间推理及决策任务提供了新的路径,然而,体素、点云和NeRF等多样的数据表示形式使得数据采集和空间信息处理的过程变得更加复杂。
3.2.2 基于提示学习的模型高效微调与迭代策略
为了构建适应特定下游任务的专家系统,利用专业数据对模型进行微调至关重要。然而,对模型全部参数进行全量微调既不现实,又可能导致预训练阶段获取的一般性知识的丢失,进而引发模型灾难性遗忘[64]。因此,现有方法倾向于仅调整部分参数。根据调整的参数类型,微调策略大致分为以下几类:选取一部分参数更新、引入重参数化、增加额外参数及混合策略。基于参数选择的微调方法通常以网络层为单元,有选择性地冻结或调整部分网络层的参数,如修改模型头部。LoRA[65]提出了一种重参数化微调方法,将参数庞大的神经网络退化为低秩矩阵表示,通过学习退化矩阵残差达到微调效果。根据参数添加方式,引入额外参数进行微调的方法主要分为两类:基于适配器的方法(adaptive tuning)和基于提示的方法(prompt engineering)。其中,基于适配器的方法通常在特定位置引入新的网络模块[66-67];基于提示的方法无须调整网络结构,只修改模型输入,往往涉及在连续空间中学习输入提示的最佳表示。目前,基于额外参数的方法是大模型微调的主流策略,通过新增参数可以有效地明确特定任务的需求或整合特定领域的专业知识。
为了克服大模型高效微调与性能迭代过程中的知识偏移问题,模型可以通过以下3种策略加入额外的提示信息,以助于更好地理解和适应新的领域数据。
(1)引入额外的任务指令和场景特定先验作为提示信息。以文本输入、自然语言指令或连续向量表示等形式的提示信息,可以辅助模型明确任务需求。如,Painter[68]使用同一任务的“输入-输出”图像对作为提示信息,指示模型执行哪项任务,这种方法称为上下文学习(in-context learning)。此外,SAM[40]等大模型的提示机制则很好地模拟了人类视觉感知的基本过程,人眼在理解场景时,通常会将注意力集中在单个对象上,而将其周围区域视为背景,提示模型仅需要关注感兴趣的任务区域。
除了使用提示信息明确任务指令,提示信息还能够作为在模型推理过程中引入的场景先验。前缀学习(prefix learning)通过将不同数据集的分布偏差吸收到前缀标识中并输入模型[69],能够提高模型对于不同类型的数据集的泛化性与适应性。此外,一些方法允许模型动态地学习有效的提示信息。如,RSPrompter[70]利用编码过程生成的多层次视觉特征构建语义类别相关的提示,从而提高遥感图像实例分割的精度。
(2)结合摄影测量传统管道流程构建模型思维链提示。基于思维链的提示方式允许模型将复杂问题分解为一系列的中间推理步骤,能够显著提高大模型执行复杂推理的能力,同时展示了模型得出特定答案的过程,为模型行为提供了可解释的窗口。文献[71]证实基于思维链提示的大型语言模型在算术、常识及符号推理任务上能够等同甚至优于面向特定任务的监督学习效果。
摄影测量领域的许多任务特别是解析问题包含复杂的算术推理过程,直接执行端到端的方法效果并不理想,无法保证模型的泛化性。结合摄影测量传统管道的任务设计思路,通过建立一系列逻辑步骤,引导模型逐步接近最终答案,不仅可以使模型的决策过程更加透明,而且提高了模型的可信度,允许对模型各个阶段进行质量控制,为调试推理路径出错提供了机会。
(3)基于人工反馈强化学习实现模型的迭代优化。当前大多数预训练好的基础模型通过监督学习的高效微调方法迁移到新任务,缺少基于人工反馈的强化学习过程。然而研究证实,在大型语言模型上使用用户反馈对模型进行微调,能够有效对齐模型结果与用户意图,减少模型可能存在的有毒、有害和有明显偏见的内容输出[72]。在模型应用过程中,基于人工反馈强化学习的方法借助人工检查或模型自身的不确定性等评估手段,对模型的错误或不确定输出进行识别,再由专家或审核人员对识别出的错误或不足进行修正,包括但不限于错误标签的纠正、数据清洗或提供更准确的指导。修正后的数据及反馈会被重新用于模型训练,以逐步完善模型的性能。
3.2.3 异构多模态数据融合体系框架
摄影测量领域的数据体系已远远超出影像范畴,涵盖了视频、点云和文本等多模态异构数据,同时包含人工调绘、DLG矢量数据等多种类型的已有测绘成果。为了有效利用当前丰富的数据资源,跨模态数据融合成为关键的探索方向,具体可分为原生多模态架构、模型组合及重用两类方法。
(1)联合文本等异构数据扩充摄影测量语义内涵。以视觉-语言大模型为例,同一张图像在不同领域、不同语境和不同解读角度下具有不同的文本描述,相比于封闭集合假设的图像类别标签具有更为丰富的语义内涵,使得视觉编码过程对于未训练过的数据分布也能有较好的泛化性。另一方面,与文本描述对齐的视觉表征重构了部分基础视觉任务,优化目标转变成为跨模态的特征对齐和检索任务[73],进而挖掘出数据本身自带的监督信息。然而,当前的原生多模态架构方法存在着多方面的局限性。首先,现有框架侧重于视觉、文本数据的理解,无法高效扩展到其他模态的训练。然后,对于统一的模态融合机制缺乏探索,难以直接度量不同模态的特征表示的相似性。训练过程中过于依赖模态配对数据,导致数据集的制作成本急剧增加。最后,文本形式的描述区分段落、句子和单词,其余模态的数据粒度也存在全局和对象级的区别,然而当前方法往往缺乏对于不同模态之间特征描述的尺度对应性的约束。
(2)基于组合与重用策略提升模型性能和应用灵活性。通过整合不同模型的优势或重新利用已有模型的某些部分,可以构建更为精准、可解释和适应性强的大模型体系。Anything 3D[74]将多个视觉-语言模型与SAM通用分割大模型组成层级结构,提供了一种高灵活度、高泛化性的任意物体单目三维重建系统。DeRy[75]通过将已有的预训练大模型进行拆解,在任务目标和硬件性能的约束下对子模块重新组装,生成定制网络。
集成学习和多任务学习是模型组合与重用的两种形式。集成学习策略能够整合多个同质模型的预测能力。基于模型堆叠的方法将一个模型的输出用作另一个模型的输入,允许模型学习并利用之前模型的特征表示。多任务学习的方法通过共享底层表示,综合模型在不同任务上的训练优势以提高整体性能。近期,与大模型技术密切相关的AI Agent人工智能体概念[76]指出,在进一步提升大模型常识性知识存储和通用能力的同时,人工智能体的大脑模块能够通过维基百科、知识库、词典等途径引入外源知识,从而缓解模型预训练结束之后的知识定格、匮乏和过时问题;而人工智能体的行为模块,能够与当前已有的一些工具、算法库进行整合,通过调用外部API来获取执行当前任务所缺少的能力,如特定功能代码执行、访问专有信息源等,进而充分释放大模型能力。
面向多样化的场景和复杂的真实需求,开发摄影测量领域的原生多模态基础架构的难点主要在于数据与算力等资源的制约,通过整合已有大模型的优势功能,探索通用且高效的知识迁移范式,能够进一步推动摄影测量智能化的发展,为各类语义与几何处理任务提供统一的智能处理平台。
4 总结与展望
目前,大模型技术赋能摄影测量领域的相关探索刚刚起步,摄影测量领域数据的多样性及其内在的几何关联,为大模型技术的落地带来新的挑战。一方面,自然图像与摄影测量数据在视觉特征、分布、场景复杂性等方面存在本质区别,获取覆盖广泛地理区域和多样环境条件下的高分辨率影像数据耗时且昂贵。其次,训练和部署大型深度学习模型需要大量的内存和算力,在存储、计算资源等方面存在一定门槛。另一个问题在于深度学习模型的可解释性较差,往往无法直接对输出结果进行控制和调整,无法满足摄影测量相关应用在量测和结果可验证性的需求。目前的研究集中在语义解释任务上,如斯坦福大学提出的SatMAE遥感大模型[77]、中国科学院空天院RingMo[49]、武大计算机学院RVSA[78]、河海大学RemoteCLIP[79]、浙江大学RS5M[80]及商汤SenseEarth平台,探索并改进了CLIP、SAM等通用大模型在多源遥感数据解译方面的性能[9,70,81]。在解析问题方面,随着模型参数和训练数据规模的不断扩大,以大模型为代表的人工智能技术有望实现高效计算与场景强泛化性的平衡,一方面学习不同场景内部普适的几何结构与外观规律,另一方面借助语义信息引入更为准确贴切的场景相关先验信息,实现不同场景计算策略的自适应调整,为当前传统方法所面临的问题带来新的解决方法。
在数字化发展、智能化转型的行业背景下,摄影测量领域面临着数据获取实时化、信息处理自动化、服务应用知识化等诸多新的需求,新一代人工智能技术正成为这一转型升级过程中的核心驱动力。大模型凭借其卓越的泛化能力和适应性,超越了面向特定任务、单一场景的监督训练范式,有望成为能够处理多类任务、适应多种数据来源的通用人工智能底座,为摄影测量领域突破异构多模态数据的理解与表达,实现数字孪生驱动的全方位感知、认知、表达及推理开辟了新的发展方向。
来源:《测绘学报》2024年53卷第10期(审图号GS京(2024)2165号);
转自:智绘科服
- END -
奥维重磅更新!新增吉林一号全国2023年卫星影像,支持DWG格式的CAD文件
空域申请 | 无人机航测UOM系统合法飞行申请流程