红外图像合成技术综述

文摘   2024-11-03 00:02   上海  
点击下方卡片,关注“AI生成未来


论文题目

A Comprehensive Survey on Synthetic Infrared Image synthesis

摘要

合成红外(IR)场景和目标生成是一个重要的计算机视觉问题,因为它允许生成逼真的红外图像和目标,用于各种应用的训练和测试,如遥感、监视和目标识别。它还有助于降低与收集真实IR数据相关的成本和风险。本文旨在全面概述用于生成合成红外场景和目标的传统基于数学建模的方法和基于深度学习的方法。本文讨论了合成红外场景和目标生成的重要性,简要介绍了黑体和灰体辐射的数学计算以及红外图像捕获方法。本文还描述了合成红外场景和目标生成的潜在用例,强调了这些技术在各个领域的重要性。此外,本文探讨了开发新技术的可能新方法,以提高合成红外场景和目标生成的效率和有效性,同时强调了进一步研究以推进该领域的必要性。

1、介绍

红外(IR)成像是一项革命性的技术,对许多领域都有深远的影响。它穿透黑暗的面纱,透过烟雾和朦胧的环境,揭示了一个肉眼看不见的世界。从使用红外成像进行目标跟踪和夜视的国防和监视系统,到利用红外成像进行非侵入性诊断的医疗保健,以及利用红外成像进行天气预报和气候研究的气象学,红外成像的应用五花八门。红外成像的力量在于它能够提供通过其他成像方式无法获得的关于我们环境的独特信息。

尽管具有巨大的潜力,红外系统的发展和部署面临着一个重大的瓶颈—缺乏合适的红外数据。训练健壮可靠的红外系统需要大量、多样化和高质量的数据集。然而,由于隐私问题、后勤问题以及难以捕获广泛的场景和条件,在现实世界中获取此类数据集具有挑战性。这种数据限制阻碍了红外技术的发展,限制了其学习、适应和推广新环境的能力。

解决这一挑战是合成红外图像和视频合成的潜力所在。通过先进的计算模型和模拟,合成红外成像可以生成大量真实、多样和可控的红外数据。这项技术可以模拟多种现实世界的场景,从不同的大气条件到不同的材料特性,从而提供为训练IR系统提供丰富、灵活和合乎道德的数据来源。它为红外系统有效地学习和适应铺平了道路,弥合了现实世界红外数据的稀缺性和现代红外系统对数据的渴求之间的差距。这项综合调查有双重目的:在红外波段的全光谱范围内,从近红外(NIR),到中红外(MIR),再到远红外(FIR),跨越0.7至14微米的波长范围,汇集传统和基于学习的合成红外(IR)生成方法。这是一项努力,以巩固在各种应用的合成红外生成领域进行的丰富研究。据我们所知,这项调查是同类调查中的第一次,为合成红外图像和视频生成提供了全面的方法汇编。我们设想这项调查将对参与该领域的个人和组织非常宝贵,使他们能够识别和理解当前使用的一系列算法。我们相信这种深入的概述将刺激新的研究,鼓励研究人员有效地解决现有的挑战,并在这一领域开创创新的解决方案。此外,这项调查将为行业专业人士提供一系列合成红外生成的潜在方法,帮助他们确定最适合其特定用例的算法。通过这次调查,我们旨在促进合成红外成像领域的进步和创新,弥合学术研究和工业应用之间的差距。

这篇综述论文深入研究了合成红外图像和视频合成领域,涵盖了它的原理、应用、方法和挑战。我们以“红外成像的基础知识”开始我们的探索,在第2节中阐明了支撑这项技术的基本物理和数学。然后在第3节中浏览各种“合成红外图像的应用”,并在第4节中提供对可用“数据集”的见解。随后,我们将在第6节中阐明生成合成红外图像和视频的“方法”,并在第7节中解决相关的“挑战”。在最后一部分中,我们将“结论”中的讨论联系在一起,反映了第8节合成红外图像/视频合成的现状和未来轨迹。当我们遍历这一景观时,我们的目标是为该领域的研究人员,从业者和爱好者提供全面的资源。

2. 红外成像基础

本节提供了红外(IR)图像的简要概述和数学基础。讨论了黑体和灰体辐射,红外辐射的探测方法,不同类型的红外,以及模拟大气传递函数的工具和算法。

2.1. IR的类型

红外(IR)辐射是一种不同范围的电磁波,每一种都具有独特的特性和应用。近红外(NIR)光谱范围为0.7-0.9µm,广泛应用于电信和光纤中,可实现远距离快速、可靠的数据传输。短波长红外(SWIR)在0.92.5µm范围内工作,用于夜视设备,允许用户在低光条件下导航,并用于遥感,在那里它有助于收集地球表面的数据。中波红外(MWIR)和长波红外(LWIR)都用于热成像,由于MWIR(3-5µm)能够穿透大气障碍物,因此也用于导弹制导系统。另一方面,LWIR(8-14µm)用于监视和夜视应用,其较长的波长可以检测物体的温差。最后,远红外(FIR),覆盖151000µm,在天文学中有应用,它有助于研究恒星和星系的形成,以及在环境监测和热效率分析中,它可以检测温度和能量模式的细微变化。表1列出了不同类型的红外光谱以及这些光谱的常用用例。

2.2. 红外辐射测量与探测

红外成像系统的工作是建立在探测物体发出的热辐射的基础上的,热辐射是一种受辐射测量原理支配的现象。为了准确地解释传感器接收到的红外辐射,对潜在的辐射测量物理的全面理解是必不可少的。这包括通过求解热平衡方程计算表面温度,根据表面温度确定光谱辐射强度,以及随后的辐射强度计算。此外,大气在辐射的衰减中起着重要的作用,因此需要对大气透射率进行建模,以准确地预测传感器接收到的辐射。本节对红外成像系统的辐射测量和探测方面进行了深入的研究,包括表面温度、光谱辐射和辐射强度的计算,以及大气透射率的建模和辐射强度到电压的转换。全面掌握这些基本概念对于红外成像系统的设计和优化至关重要,红外成像系统适用于各种应用,包括热成像、监视和环境监测。红外系统的示意图如图1所示。

2.2.1. 热平衡方程和表面温度计算

物体的辐射能力与其吸收辐射的能力密切相关,因为物体在恒定温度下与其周围环境处于热平衡状态;它必须以同样的速率吸收和辐射能量。物体的热平衡方程可以描述为从太阳和环境中吸收的入射辐射的总和,内部热源的传导等于黑体发出的辐射和热对流等效应[10,64,59]。

其中Qd为物体内部的热传导,Qi为内部热源,Qsum为吸收的由直接和漫射两部分组成的太阳能,Qenv为从环境因素中吸收的能量。物体内部的热传导分量可以用比热容C、物体的线密度ρ、热穿透深度来表示。物体的比热容和密度是材料的性质。

解上述方程得到物体表面温度T。

2.2.2. 体的光谱辐度

黑体在特定波长和温度下的光谱辐亮度如下:

2.2.3. 辐射到探测器电压

如果该辐射落在面积为Ap的红外探测器上,探测器与目标的立体角为Ω,则探测器产生的输出电压Vdet为,

在理想的系统中,响应函数应该是输入信号的线性和移位不变函数,从而可以直接预测系统的响应。然而,在实际应用中,由于探测器非线性、光学像差和电子噪声等因素的影响,响应函数往往是非线性和位移变的。如果我们假设这些变量为平移不变系统,则波长带的积分值将具有恒定值。由于探测器面积和立体角也是恒定的,我们可以有把握地说,

光谱辐射强度是光谱发射率和表面温度的函数。表面的发射率是恒定的。因此,可以推导出探测器产生的电压与表面温度成正比。

在红外成像中,有关亮度与像素亮度的方程取决于几个因素,包括特定的光MWIR成像系统所使用的,目标的特性,以及成像时的大气条件。

一般来说,将亮度(以瓦特每平方米每立体面测量)转换为像素亮度(以数字计数或单位测量)的过程包括以下几个步骤:

1.校准:红外成像系统必须使用已知的亮度源进行校准,以建立亮度和像素亮度之间的关系。

2. 大气效应校正:成像系统测量的辐射可能会受到散射、吸收和其他可能降低图像质量的大气效应的影响。这些影响可以使用大气校正模式和算法进行校正。

3. 温度转换:使用考虑诸如目标的发射率和成像系统的光谱响应等因素的辐射转换方程,可以将辐射度转换为温度。

4. 显示:最后,温度值可以使用查找表或色阶映射到像素亮度值,以直观地表示红外图像。

每个步骤的具体方程和算法将根据红外成像系统和应用而变化。红外波段转换是一个非常困难和具有挑战性的研究领域,因为材料的发射率、反射率和透射率随红外波段的变化而变化。大气气体中的水蒸气和二氧化碳对差异有很大影响,因为这些成分根据波长带具有特定的吸收/发射光谱。

3. 模拟大气传递函数的工具和算法

大气传输或大气传递函数是指电磁波,包括光和其他形式的辐射,通过地球大气层的过程。大气是由不同的气体、粒子和水蒸气混合而成,所有这些都能以各种方式与电磁波相互作用。

这些相互作用包括吸收(波的能量被大气成分吸收)和散射(波的方向被改变)。在红外成像的背景下,大气传输是特别相关的,因为大气比其他大气更能吸收特定波长的红外辐射。这是由于水蒸气和二氧化碳等气体的存在,它们可以吸收特定频率的红外辐射。这种效应被称为大气吸收或大气衰减。大气传递函数的准确测量对红外合成成像的真实感和精度至关重要。这种精确的建模提高了合成图像的质量,为机器学习模型创建了更具代表性的训练数据集。此外,它提高了这些模型在现实世界条件下的通用性,并允许对红外成像系统进行有效的性能评估,确保它们能够有效地解释现实世界的红外数据。

3.0.1. DISORT(离散坐标辐射传递)

该方法是一种广泛使用的辐射传输模型,可以模拟辐射在水平分层大气中的传输。DISORT使用离散坐标法来求解辐射传递方程,并能解释云层和气溶胶的散射和吸收。

3.0.2.RTTOV (辐射传输TOVS)

该方法由欧洲中期天气预报中心(ECMWF)开发,用于模拟中波红外辐射在地球大气中的传输,以供天气预报应用。RTTOV采用基于大气剖面的快速辐射传输算法计算辐射传输系数。

3.0.3. ARTS(大气辐射传输模拟器)

该方法是一种灵活的辐射传输模型,可以模拟MWIR辐射在云层、气溶胶等复杂大气条件下的传输,并可用于模拟遥感仪器的性能。

3.0.4. TES(地表透光率估算)

该方法是一种简化模型,根据地表温度和大气水蒸气含量估算MWIR辐射通过地球大气的透射率。TES通常用于遥感应用的辐射透过率的快速估计。

3.0.5. LOWTRAN和MODTRAN

低分辨率传输(LOWTRAN)和中分辨率大气传输(MODTRAN)是模拟MWIR辐射通过地球大气传输的常用方法。LOWTRAN是由美国空军开发的,它是一个简化的模型,根据大气剖面和大气成分(如水蒸气、二氧化碳和臭氧)的浓度计算辐射传输。LOWTRAN假设水平均匀大气,提供低光谱分辨率。另一方面,MODTRAN是由美国空军和光谱科学公司开发的更复杂的模型。它提供了中等的光谱分辨率,可以解释更复杂的大气条件,例如大气成分的水平和垂直变化以及云和气溶胶对辐射传输的影响。MODTRAN还可以模拟地球表面辐射的反射和发射,并可用于预测遥感仪器的性能,如卫星或机载传感器。LOWTRAN和MODTRAN被大气科学、遥感和国防应用领域的研究人员和实践者广泛使用模拟MWIR辐射在地球大气中的传输,并评估MWIR遥感仪器的性能。

3.0.6. ATRAN

ATRAN(大气传输)是为精确模拟电磁辐射在地球大气中的传输而开发的软件模块。它考虑了海拔、温度、压力和气体浓度等因素来计算大气传输的合成光谱。用于气象、遥感和电信等领域,ATRAN有助于解释传感器数据、设计通信系统和生成逼真的合成红外图像。

4. 数据集

在本节中,我们探讨了各种红外数据集,这些数据集可用于生成合成红外场景和目标。红外上的数据集可以分为三种类型:i)独立红外数据集,ii) rgb -红外未配对数据集,iii) rgb -红外配对数据集。独立红外数据集完全由红外传感器捕获的红外图像组成。它们对于仅关注红外成像的应用或开发利用红外数据独特特征的算法特别有用。RGB-红外未配对数据集包括RGB和红外图像;这些数据集中的图像是不配对的,这意味着对应的RGB和红外图像可能不会共享同一个场景或捕获时间。这些数据集对于探索RGB和红外成像的优势以及开发可以独立处理和分析这两种数据类型的算法非常有价值。在RGB-红外配对数据集中,RGB和红外图像是严格配对的,这意味着它们共享相同的场景和捕获时间。这种配对允许研究人员开发和评估融合RGB和红外数据的算法,利用两种成像模式提供的互补信息。


此外,本节中讨论的数据集涵盖了广泛的成像场景,包括空中、室外-非空中和室内图像。航空红外数据集由从卫星、飞机或无人驾驶飞行器(uav)等高空平台捕获的图像组成。这些数据集为各种应用提供了有价值的信息,包括环境监测、灾害管理、农业、城市规划和土地利用分析。航空红外图像揭示了在可见光图像中不易识别的信息,如温度变化、水分含量和植被健康。户外-非空中类别包括在各种户外环境中在地面捕获的红外数据集。

这些数据集可以涵盖不同的场景,如行人和车辆检测、道路和交通监测、基础设施评估和野生动物观察。户外非航空红外图像在低光或模糊的条件下特别有益,传统的RGB成像可能难以为计算机视觉任务提供足够的信息。室内红外数据集包括在封闭空间内拍摄的图像,如建筑物、住宅、工厂或其他结构。这些数据集可用于热异常检测、能效分析、监控和安全以及人类活动识别等应用。室内红外成像可以揭示隐藏的细节,如热特征、湿度水平或绝缘问题,这对于评估建筑性能或检测潜在的安全隐患至关重要。以下是公共领域可用的数据集:

4.1. OSU Databases

正在讨论的数据集是由俄亥俄州立大学的研究人员精心准备和分享的。

4.1.1. OSU Thermal Pedestrian Database[12]

该独立热数据集由波长范围为7-14um的热图像组成,用于开发人体检测算法。图像是由配备高质量75mm镜头的雷神300D热传感器捕获的,确保了精确和详细的红外数据。该数据集共包含10个视频序列,这些视频序列被进一步划分为284个单独的图像。每张图像以8位灰度位图格式呈现,分辨率为360×240像素。该数据集专为人员检测应用而设计,可以开发和评估可以在各种环境和条件下准确识别和跟踪个人的算法。

4.1.2. OSU Color-Thermal Database

该数据集侧重于颜色和热图像的融合,并在使用颜色和热数据的基于融合的目标检测中具有特定应用。数据集是使用两个传感器收集的:一个是带有25mm镜头的雷神PalmIR 250D热传感器,一个是索尼TRV87 Handycam颜色传感器。这些相机被安装在一个三脚架上,彼此相邻,在两个不同的位置,大约三层楼以上,手动控制增益和对焦设置。该数据集由六个颜色和热序列组成,每个位置捕获三个。数据集中总共有17089张图像。热图像为8位灰度位图格式,彩色图像为24位彩色位图格式。每张图像的分辨率为320x240像素,采样率约为30Hz。彩色图像和热图像使用单应性配准,这是一种依靠手动选择点来精确对齐图像的技术。这种配准过程确保了相应的彩色和热图像共享相同的场景和捕获时间,从而可以开发和评估基于融合的目标检测算法。数据集包含波长范围为7 ~ 14um的热图像。

4.2. ATR算法开发图像数据库

美国陆军NVESD为ATR算法开发人员创建了ATR(自动目标识别)数据库。它包含60万张各种目标和背景的可见光和MWIR 3-5um图像,地面实况数据,气象数据和相关信息。MWIR的图像大小数据库涵盖了不同距离、不同角度的不同目标类型,如人、军用车辆、民用车辆等。MWIR和RGB图像都以16位格式捕获,分辨率为640x480。该数据库还提供目标温差、气象数据、目标照片和用户指南。这些图像是用商用相机在MWIR和可见光波段拍摄的。它是MWIR波段中最大和唯一可用的公共数据之一。该数据集是独家的,仅供北约成员国的研究人员使用。

4.3. Terravi Databases

该数据集侧重于使用热成像进行检测和跟踪。图像是使用波长灵敏度为7-14um的雷神L3 thermal - eye 2000AS传感器捕获的,该传感器专门用于获取详细的热数据。该数据集共包括18个热序列,涵盖了各种场景,以适应各种应用和挑战。这些场景包括11个室外运动和跟踪场景,1个室外房屋监控场景,1个室内走廊运动场景,1个平面运动和跟踪场景,2个水下和近水面运动场景,2个无事件背景运动场景。这种广泛的场景确保数据集适合使用热成像探索不同的检测和跟踪任务。数据集中的图像为8位灰度JPEG格式。每张图像的分辨率为320x240像素,为计算机视觉任务提供了足够的细节。通过提供各种场景的全面热图像集合,该数据集可以开发和评估利用热成像独特优势的高级检测和跟踪算法。

4.4. CSIR-CSIO运动目标热红外图像数据集(MOTIID)

该数据集专注于热红外图像中的运动物体检测,目标是各种主题,如行人、车辆和动物。这些图像是用安装在大约4英尺高的三脚架上的热红外摄像机拍摄的。额外的传感器细节可以在参考材料中找到。该数据集包含18个热序列,包括各种各样的运动目标,包括两种不同的4轮车(Ambassador和Innova)、3轮车(机动人力车)、2轮车(摩托车)和人类行走在不同的距离上,一只散步的狗和一只飞翔的鸟。这些不同的场景使研究人员和开发人员能够探索和开发热红外图像中各种运动物体的鲁棒检测算法。图像分辨率为640x480像素,采样率为10Hz。每个热视频序列的持续时间在4-22秒之间变化,每个序列都有一个或多个移动目标进入和退出相机的视野。这个全面的数据集为开发和评估使用热红外成像的高级运动目标检测算法提供了宝贵的资源。

4.5. 可见光和红外光谱中的海洋图像

VAIS数据集是同时从码头获取的船舶的未注册热图像和可见光图像的集合。它适用于对象分类研究。数据集包括2865张图像,其中1242张为红外图像,1623张为可见光图像。数据集中有1088对图像,每对图像都包含同一艘船的红外图像和可见光图像。该数据集包括264艘独特的船只,其中154艘是夜间红外图像。该数据集分为6个基本类别:商船、帆船、客运、中型、拖船和小型。在这些基本类别中还有15个细粒度的类别。VAIS数据集是由华盛顿大学和加州大学伯克利分校的研究人员创建的。数据集是从旧金山湾区的码头收集的。数据集中的图像是用两种不同的传感器捕获的:可见光传感器和红外传感器。可见光传感器捕获可见光谱中的图像,红外传感器捕获红外光谱中的图像。可见光传感器是ISVI IC-C25,可捕获5,056x5,056像素的彩色图像。红外传感器是Sofradir-EC Atom 1024,可捕获1024x68像素的图像。VAIS数据集是目标分类研究的宝贵资源。数据集庞大而多样,包括各种船型和船况。该数据集组织良好,易于使用。

4.6. 热红外视频基准的视觉分析

热红外视频视觉分析基准(BU-TIV)是一个综合数据集,旨在促进单视图和多视图红外视频中目标检测、计数和跟踪的研究。使用FLIR SC8000传感器捕获的数据集包括超过60,000帧,数百个注释和多视图几何的相机校准文件。数据集中的序列专门用于测试各种视觉任务,例如以低分辨率跟踪单个行人或飞行蝙蝠,监控行人,汽车,自行车和摩托车等多个移动物体,以及从多个视图跟踪具有平面运动的多个飞行蝙蝠和人。该数据集还涵盖了从三个不同视角对多个飞行蝙蝠的3D跟踪,以及在高密度环境中对飞行蝙蝠的计数。这个基准数据集具有各种场景和帧大小,对于使用热红外视频的视觉分析领域的研究人员和从业者来说是一个宝贵的资源。

4.7. 用于ADAS的遥测红外热传感

FLIR热数据集是一个免费的热和可见光谱图像数据集,用于使用卷积神经网络(cnn)开发目标检测系统。该数据集包含超过26,000张标注图像,其中包含白天和夜间捕获的520,000个边界框注释,并包括15组分类:自行车,汽车,摩托车,公共汽车,火车,卡车,交通灯,消防栓,路牌,狗,滑板,婴儿车和其他车辆。使用Teledyne FLIR Tau 2 640x512, 13mm f/1.0 (HFOV 45°,VFOV 37°)热传感器和Teledyne FLIR Blackfly S BFS-U3-51S5C (IMX250)相机和52.8°HFOV Edmund Optics镜头RGB相机捕获帧。该数据集可用于训练和评估ADAS和自动驾驶汽车的目标检测算法。

4.8. 微光视觉的可见-红外配对数据集

该数据集提供了非常弱光视觉的可见-红外配对图像。该数据集有30976张图像,包括RGB和IR,转换成15488对RGB-IR。数据集的波长在热范围内,即8 ~ 14um。数据集使用海康威视DS2TD8166BJZFY-75H2F/V2捕获,这是一种双目摄像机,具有可见光和红外摄像机。

4.9. TNO多波段图像数据采集

该数据集提供增强的视觉(390-700 nm)、近红外(700-1000 nm)和长波红外(8-12µm)夜间图像。该数据集包含16个动作序列,描绘了各种军事和监视场景,具有不同的物体和目标,例如在包括农村和城市环境在内的不同背景下设置的人和车辆。数据集是使用他们自己的TRICLOBS(三波段彩色低光观测)全天全天候监测系统捕获的。

4.10. Linköping热红外(ltir)数据集

Linköping热红外(ltir)数据集是用于评估短期单目标(STSO)跟踪的热红外数据集。它包含20个热红外序列,每个序列由536帧组成,产生大量数据用于分析。该数据集具有1920x480的高分辨率帧大小,提供了详细的热红外图像,提高了跟踪应用程序的精度。数据集是使用各种先进传感器捕获的,包括FLIR A35、FLIR Tau320和FLIR A655SC。多个传感器的使用证明了数据集的通用性和对不同跟踪的适用性算法,使其成为使用热红外数据进行目标跟踪领域的研究人员和开发人员的宝贵资源。

4.11. ICRA热红外数据集

该数据集由4381张航空热红外图像组成,其中包括人、猫、马和2418张背景图像,所有这些图像都带有手动注释。图像大小为324x256像素。图像被分成8个序列,并可在16位和下采样8位格式。该数据集由手持FLIR Tau 320热红外摄像机记录,由于其均匀的采样率,适用于跟踪算法。它还包括一个训练集,其中包括专门截取的人类图像。

4.12. 多光谱行人检测数据集

KAIST数据集是专门为行人检测任务策划的集合,具有精心对齐的彩色热图像对。该数据集的独特之处在于它使用了基于分束器的专用硬件,可以创建注册的rgb -热图像,确保整个数据集的高精度和一致性。该集合包括95,000张图像,每张图像的分辨率为320x256,代表了用于分析的大量数据来源。数据集中的热图像使用flire - a35传感器捕获,RGB图像通过PointGrey Flea3获得。这些先进技术的融合强调了KAIST数据集在行人检测和相关研究应用中的鲁棒性和可靠性。


4.13. 其他数据集

4.13.1. MODIS

MODIS是Terra和Aqua卫星上的关键仪器,提供近红外、中远红外和低红外区域的数据。它涵盖了广泛的地球观测数据,包括大气、陆地和海洋。

4.13.2. Landsat

地球资源卫星计划是一系列地球观测卫星任务,由美国宇航局和美国联合管理地质调查。Landsat提供多光谱数据,包括近红外(NIR)、短波红外(SWIR)和低红外波段。

4.13.3. Sentinel-2

作为哥白尼计划的一部分, Sentinel-2号是一系列提供高分辨率光学图像的卫星,包括近红外和SWIR波段。这些数据是免费提供的,经常用于土地监测、植被和灾害管理应用。

4.13.4. VIIRS

VIIRS是安装在Suomi NPP和NOAA-20卫星上的仪器,提供近红外、中红外和低红外区域的数据。它主要用于监测地球的环境、天气和气候。

4.13.5. ASTER 

作为美国宇航局Terra卫星的一部分,ASTER提供高分辨率的多光谱数据,包括近红外、SWIR和TIR(热红外)波段。它用于研究地表过程,包括植被、水文和地质。


5. 合成红外场景模拟工具

开发红外系统所需的数据几乎不可能通过测量获得。因此,红外场景仿真是任何光学系统开发中必不可少的组成部分。考虑到它的重要性,人们进行了各种研究,开发基于gui的工具,可以模拟任何波长变化较大的红外场景模拟。这些工具以不同的步骤生成模拟视频。

这些工具中的大多数使用图形工具生成3D场景,然后使用基于物理的库来模拟源和观察者/传感器之间的各种元素的属性,以及传感器光学到探测器的完整模拟。从光源到传感器的要素包括大气特性、光源的光谱辐照度、光源的光谱反射率、天气条件、特殊效果(如火灾、烟雾、羽流等)、自然和人造光源、光源的动态加热和冷却、阴影等。传感器到探测器的元素包括光学像差、探测器光谱响应、航空光学效应、探测器阵列、IFOV采样、衍射、放大、增益、死像素等。除此之外,他们还使用基于物理的材料建模来整合场景中存在的材料属性。材料在不同波段表现不同。例如,在红外区域,玻璃总是黑色的。

模拟红外视频生成的步骤生成3D场景使用图形工具,如Blender, Unity或虚幻引擎。根据物理原理和材料特性找出物体的亮度。基于物理的原理不仅限于热物理性质、光谱BRDF、材料物理性质、各种波长范围的光谱特征计算、表面温度性质及其随大气条件的变化等。使用MODTRAN等工具进行大气物理特性建模。基于光线追踪和光子计数算法的场景渲染。

已经开发了许多这样的工具,如OSV [50], Octal [43], MuSES和CoTherm [51], Ondulus [46], DIRSIG [21], OSSIM[11]等。下面给出了这些工具的简要描述。

1. JRM Technologies OSV[50]是一个实时光谱EO/IR传感器场景模拟器。OSV可以使用内部开发的库(如SigSim和SemSim)在0.2至25.0um波长范围内生成实时场景模拟。该软件使用开放场景图(OSG)工具包,该工具包具有材料编码的目标和地形,以及SigSim和SenSim库,可以在任意天气条件和时空观测位置下预测任意传感器波段的相关辐射校正2D传感器图像。SigSim是JRM的签名物理库,用于预测准确的波长波段特定签名。SigSim包括日较日、星历、散射参数、自然和人工辐照原因以及地表温度,以准确地模拟波长现象。SigSim使用MODTRAN来模拟大气现象。SenSim库提供基于物理的传感器属性,如光圈后传感器噪声,模糊,增益和其他效果。使用SenSim,用户可以定义光学特性、探测器阵列、信号处理和显示参数。

2. OKTAL-SE的产品[43,17]为EO/IR应用程序提供基于物理的渲染引擎和基于3D几何的场景编辑。他们使用Blender作为渲染器,并使用先进的热方程进行红外表征。他们正在使用MODTRAN进行大气模拟。有了专用的插件,该工具可以生成模拟复杂的现象,如海洋建模,尾流,泡沫,云层,3D云,雨,雪,耀斑,爆炸,蒸汽尾迹,灯光,排气羽流和雷击。根据需要的场景,用户可以定义几何,材料的物理特性,大气和热条件,移动和实例对象,模拟期间的特殊事件(耀斑,爆炸,…)轨迹,脚本动画的场景和目标使用的工具。用户还可以定义传感器特性,用于特定传感器的仿真和验证。

3. Thermo Analysis的muse和CoTherm[51]是一个类似的EO/IR模拟工具。这两个软件相互使用,用于传感器建模和场景生成任务的仿真。muse使用综合传热方程来估计实际温度和EO/IR传感器辐射。它生成高分辨率的3D几何图形,并在考虑环境边界条件的情况下,根据材料特性计算组件热源。CoTherm为场景模拟过程提供自动化功能。它通过从用户处获取输入参数来帮助生成muse图像。

4. 数字成像与遥感图像生成(DIRSIG)[21]是由罗切斯特研究所数字成像与遥感实验室开发的合成图像生成工具。该工具最初是为遥感应用开发的,但后来采取了一种灵活的开发方法,以扩大其对激光雷达、雷达、云建模等开发的适用性。该工具还可用于微光光子映射,偏振成像等。该工具可以产生辐射测量正确的宽带、多光谱和超光谱图像。

5. OSSIM(光电场景模拟器)[11,59]是由科学和工业研究理事会,南非和Denel动力学有限公司开发的。它是专门为红外场景模拟而设计的,覆盖了0.4-20um光谱区域。OSSIM的预期用途是用于开发热图像系统、导弹导引头传感器、传感器和图像处理算法等,以及它们的优化和性能模拟。该工具可以为所有波长波段创建精确的辐射图像。他们使用MODTRAN的联合建模和仿真系统(JMASS)接口来模拟大气参数。下一节将讨论该工具的热方程和热平衡方程。


6. 用于CCD评估的CAMEO-SIM[41]由英国国防评估与研究局和狩猎工程有限公司开发。这个基于物理的宽带场景模拟工具是专门为评估伪装、隐藏和欺骗(CCD)而设计的。用于0.4-14um范围内的红外场景模拟。CAMEO-SIM能够生成高保真图像,利用集成了辐射和光线跟踪过程的图像生成器。此外,它还提供了根据特定要求产生各种保真度,平衡精度和渲染时间的灵活性。

由于能够在宽频谱范围内生成合成数据,这些工具可用于生成训练各种深度学习模型的数据,用于诸如安全和监视,目标检测,跟踪,识别和识别,导弹制导系统,自动驾驶辅助系统(ADAS)等应用。深度学习模型以其处理非线性任务的巨大效率改变了计算机视觉的进程。这些方法直接学习数据,因此需要大量的数据进行训练和评估。与RGB数据相比,红外域的此类数据的可用性非常具有挑战性。为了开发深度学习模型,这些工具可以用于数据创建。此外,深度学习也使这些工具变得更好。由于大多数工具依赖于图形工具,如Blender,场景看起来是动画的,缺乏真实感。深度学习方法最近在生成逼真的图像方面显示出了希望。这些熟练的模型可以利用这些工具在现实场景的创建。Octal使用这种技术来改善其整体模拟体验。

这些工具中的大多数都是专有的,购买起来很昂贵。它们是为大量用例设计的。他们采用强大的验证方法,以确保其数据的准确性和完整性,并在其过程中保持高质量标准。

6. 合成红外图像/视频生成方法

在本节中,讨论了用于生成合成红外的各种方法。这些方法可以分为两个主要部分。首先,我们将讨论红外物理在红外场景模拟中突出使用的计算方法,其次,我们将讨论计算机视觉中生成方法的最新趋势及其在合成红外场景模拟中的应用。本文所讨论的方法的图形描述如图4所示。

6.1. 计算方法

计算红外图像/视频生成方法是最可靠的方法之一,因为它们利用基于物理的方法来生成逼真和准确的红外图像。物体的红外特征取决于多种因素,包括材料特性、大气传播、传感器光学、温度、反射、太阳影响、视角、阴影效应和风速。物体的材料特性在其红外特征中起着突出的作用,包括发射率,即物体发射热辐射的能力。发射率是一种材料性质,它因不同的材料和合金以及不同的波长范围、温度和观察方向而异。它还取决于表面结构和规则的几何形状。物体发出的红外光子穿过一种介质,大气层。大气引起的衰减改变了红外特征的行为。这种衰减被模拟为大气传播,其中包括环境温度、相对湿度、大气温度和大气中物质的光学性质。MODTRAN和相关工具用于模拟大气传播。同样,一旦光子通量到达传感器,传感器光学元件也会修改红外特征。传感器的光学性能,如透镜材料、光圈、视场、透射率和传感器温度,在红外成像中起着至关重要的作用。太阳的影响是影响红外特征的另一个关键因素。照射在物体上的太阳光携带热量,这些热量被物体吸收、反射和辐射。这些光线也被大气折射,落在探测器上,显著改变了红外图像。阻挡太阳光线照射到物体上的阴影效应改变了该部分的热平衡,从而改变了它的红外特征。

对于基于辐射精确计算的红外场景生成方法,研究人员探索了多种方法。Garnier等人的一篇开创性论文[16]介绍了一种传感器建模方法,该方法建立了3D观测场景中的点与红外传感器输出图像中相应像素之间的几何和辐射关系。这项工作为基于物理的传感器建模技术提供了数学基础。[24,69,15,47,35,25]使用3D建模软件创建3D场景,然后使用基于物理的建模,他们生成了红外场景。[28,5,6]使用了特定波段的已知红外特征,并使用温度计算方法生成了不同光谱波段的红外特征。[42,32,10,64]使用图像并开发了基于物理的建模来描述图像中物体发出的红外特征。

Yu等[64]通过建立物体表面的热平衡方程,结合物体内部和边界的传热物理原理,提出了一种生成逼真红外图像的方法;他们计算了温度和辐射测量的细节。他们在物体上以贴片的方式应用该方法,并使用Gouraud阴影以及相应的辐射测量信息在IR中绘制每个贴片。他们计算了物体表面在大气窗口内的辐射,在这个窗口内,大气对某些特定波长的衰减最小。他们没有使用MODTRAN进行大气衰减。尽管本文深入探讨了由于太阳辐照度和物体本身而产生的各种热量背后的物理原理,但它们的红外特征依赖于透明大气窗口的假设,这在现实生活中是不实际的。

Choi等[10]针对场景中存在的物体提出了复合传热模型来计算表面温度分布。传热模型包括传导、对流和太阳辐照度,用于计算表面温度。控制表面温度的方程类似于方程2。他们使用MODTRAN 4计算大气透过率、各种辐射,如大气背景辐射、太阳和月球辐射、热辐射等。为了计算传感器接收到的辐射,他们考虑了物体表面的发射、物体表面反射的太阳辐照度和大气散射。得到的方程类似于前面讨论的大方程。他们通过产生沥青和铝组成的物体的红外特征,证明了他们的计算模型的效率。他们计算了这些天体的日红外特征。密度、比热、导热系数和总吸收率是计算辐照度时使用的基本材料属性。

Leja等[32]提出了一种非制冷红外传感器的数学模型和红外数据生成方法,以辅助红外传感器的标定。由于放大器的电流-电压特性不均匀以及测热计的响应性不均匀,红外传感器容易产生固定模式噪声(FPN)。这将导致图像中的不良伪影,包括死像素和有缺陷的像素。他们使用了传感器的各种元素的数学建模,包括热计、焦平面阵列、光学和环境,来生成与非冷却传感器有关的合成红外图像。通过数学建模,他们能够模拟各种传感器问题,如像素缺陷、不均匀性等。

More等人[42]提出了针对机载目标的合成红外云生成、飞机亮度计算和场景渲染。他们使用MODTRAN进行辐射计算,使用虚拟现实建模语言进行场景渲染。他们提出了一种通过改进加德纳方法和自相似算法来生成具有丰富光谱信息和纹理的云的方法。他们使用飞机的三维几何模型和平面三角形切面,并假设飞机的各种元素的温度,然后使用MODTRAN计算飞机的整体辐射。

研究人员采用的另一种方法是从已知波段的红外图像生成不同波段的红外图像。这些方法也可以称为转换方法,将红外图像从一个波长波段转换到另一个波长波段。Kim等[28]和Bae等[5,6]提出了利用已知光谱带的红外图像生成任意光谱带的红外图像。他们首先从任意波长波段的红外图像中估计目标和背景的辐射。利用辐射,他们估计红外图像中物体的温度成分。利用这些信息,他们生成了温度图像。此外,利用温度-辐射模型和辐射-灰度传递函数,他们生成了三个不同波段的图像,即LWIR, MWIR和SWIR。该方法得到的结果如图5所示。

研究人员还使用计算机图形辅助工具来生成精确的合成场景。这些方法是开发基于软件的红外生成方法的基础。他等人[19]使用了面向对象图形渲染引擎(OGRE),一个开源引擎,来生成三维几何模型。此外,他们还利用热模型计算了模型的红外辐射和纹理。然后将大气效应和辐射传输模型效应添加到这些纹理中,以适应特定波长的大气辐射传输。然后利用三维物体的最终纹理渲染三维红外场景。方法的结果如图6所示。与此类似,Jiang等[24]利用热平衡方程模型和OSG引擎分别预测了各种材料的表面温度和辐照度,生成了大尺度红外场景。红外图像使用光线追踪方法生成。此外,他们还使用材料划分方法来改进整体温度预测。

Zhijian等[69]使用Unity3D图形渲染引擎生成用于仿真的红外图像。他们使用拼接小的真实红外图像作为背景生成全景红外图像。他们用数学模型模拟了飞机的3D轨迹和高度。此外,他们还使用红外物理模型来生成目标。三维飞机的尾喷管、尾火焰和蒙皮被建模为目标。然后,所有这些信息被融合在一起使用Unity3D图形渲染引擎生成目标跟踪的红外数据。所建议的管道如图7所示,所得到的模拟场景如图8所示。

Dulski等[15]提出了一种模拟红外光谱范围内云辐射的数值模拟方法,用于开发自动目标识别算法。该方法结合了基于云和天空特征温度曲线的实验数据,考虑了波兰不同的季节和气象条件。研究人员开发了IR Sky软件来生成天空和云的虚拟热图像,然后对这些图像进行分析,以了解辐射特征对热探测过程的影响。

基于计算机图形的红外生成系统提供了精确和有效的方法来模拟现实场景,但不是专门设计来处理辐射传输模拟。Qi等[47]提出了一种光子跟踪方法和反向路径跟踪方法来模拟多光谱的BRDF和光子通量信息,分别生成传感器和大尺度光谱图像。反向路径跟踪也被用于模拟热红外辐射,通过计算阳光和阴影的场景组件。

6.2. 基于学习的方法

基于深度学习的图像生成方法最近在基于RGB的图像生成中显示出非常有希望的结果。与计算方法相比,这些方法速度快,产生的图像更多样化。已经有多种方法来生成RGB图像,包括深度玻尔兹曼机,这是基于能量的模型;变分自编码器[58,29],它是有向概率图模型;深度自回归模型;归一化流模型和生成模型[18,39,70,22]。


基于深度学习的红外生成模型可以分为两类。第一组包括将RGB图像转换为IR图像的模型[30、31、66、40、34、48、53、33、56、26、55、27、44、54、57、65、63、36、1]。这些模型需要RGB-IR对数据对RGB图像映射到IR的原理进行训练。第二组包括直接红外生成[68]。这些模型直接在红外图像上进行训练,并根据学习到的分布生成相似的红外图像。

从RGB图像生成热图像是一个特别逆和不适定的任务。由于RGB图像包含400-700 nm范围内的辐射信息,而热图像属于3-15휇m波段,因此大多数模型都将其作为域转换问题而不是开发基于物理的模型。

Mizginov等[40]探索了从色带到热带合成红外生成的多模态网络。研究人员认为,GAN网络平均了整个物体的热对比度,因此失去了特定区域的重要热特性。为了解决这个问题,他们将物体的热区与深度图一起提供,以提高网络在生成图像中定位物体热特性的能力,从而提高整体合成红外质量。他们使用3D建模工具来创建逼真的3D模型,并生成物体的热对比图、深度图和蒙版。这些被作为输入输入到GAN网络中,其中U-net[49]作为生成器,patchGAN[14]作为鉴别器。Özkanoğlu等人[44]提出了一种基于unet的InfraGAN网络,该网络使用基于unet的生成器来学习IR和RGB之间的传输映射。利用结构相似损耗(SSIM)、L1损失和鉴别器损失对生成器损失进行优化。该方法提出的鉴别器对整个图像进行真假分类,然后对每个像素进行真假分类。Kniaz等[30]利用squeezeNet CNN网络将RGB数据转化为热图像。该网络的灵感来自于着色问题。他们开发了一个训练数据集,由1000张几何对齐的RGB图像和各种物体的热图像组成。Yuan等[65]使用条件GAN[39]从RGB图像合成近红外图像。他们使用了[7]中提出的鲁棒自适应损失函数以及SSIM损失。他们使用了来自哨兵2号数据集的配对图像。

基于Pix2Pix和CycleGAN的网络由于其在领域自适应和图像翻译方面的直接应用而成为研究人员的首选。Zhang等图9所示[66]探索了图像到图像转换模型,如CycleGAN[70]和Pix2Pix GAN[22],用于非配对和配对图像转换,以从RGB视频中创建大型红外跟踪数据。进一步,利用这些网络的中间特征来增强跟踪红外图像。这些模型在他们的论文中得到的结果如图10所示。与这些架构类似,Qian等人[48]提出了稀疏Unet生成器[49]和基于patchGAN的Pix2Pix网络,用于RGB到热红外图像。他们只选择部分低级和高级特征,并使用强度和梯度损失来优化网络。Li等人[33]在Pix2Pix网络中使用D-LinkNet架构代替U-net作为生成器来学习图像纹理和图像内部的相互依赖关系,以提高生成的整体合成红外质量。

Abbott等人[1]使用了CyclgeGAN[70]网络以及一种新提出的损失函数,该函数是对象特定损失,并计算为使用检测器在假和真实RGB和IR图像中检测到的感兴趣区域之间的绝对距离。该损失是根据夜视红外图像和RGB视觉图像的特点设计的。Uddin等[53]使用注意力GAN(如图11所示)将注意力集中在目标区域,保持了目标区域的正确性。他们的网络类似于CycleGAN,除了他们使用了两个基于resnet18的教师网络注意图和被用来教导鉴别器和生成器网络将注意力集中在目标区域。作者已经证明,在生成合成红外图像方面,CycleGAN[70]和CatGAN网络有了显著的改进。对教师网络进行预训练,对各种军用车辆进行分类,使其学会生成特定车辆的注意图。然后,将该网络应用于主架构中。他们使用DSIAC数据集[9]来训练他们的网络。Yi等[63]认为,大多数域自适应方法无法感知RGB图像中的显著区域,因此无法在合成的红外图像中有效地生成纹理细节。为了解决这个问题,他们提出了一种基于梯度归一化技术的CycleGAN[70]架构,以生成纹理丰富的红外图像,同时在训练过程中有效地稳定GAN。他们使用了[60]中提出的通道和空间注意力来有效地模拟图像。Li等[36]提出了一种双注意GAN (Dual attention GAN, DAGAN)网络,将RGB图像转换为热域。他们使用DAGAN来分离前景和背景特征,并学习对这些特征的关注,以提高对热图像的翻译质量。他们使用不同设置的不同火灾测试进一步验证了数据。他们还使用了[70]中提出的循环损失。

[31]的作者使用基于gan的架构ThermalGAN将RGB图像转换为LWIR图像,用于人员再识别。他们使用了BiCycleGAN[71]框架的衍生物,其中第一个GAN预测来自输入RGB图像的热分割图,第二个GAN预测相对的局部温度对比。然后,将这两者结合起来得到最终的热图像。他们还提出了一个热世界数据集用于人的再识别任务。Kim等人[26]提出了一种双重生成方法合成红外带目标,用于目标跟踪应用。他们使用基于BicycleGAN[71]的网络对RGB图像进行红外合成,将其称为背景图像,然后使用强度调制网络与目标掩蔽背景图像一起在其上渲染逼真的红外目标。所提出的强度调制网络是GAN的一种变体,用于使目标掩模区域适应背景区域。他们在KAIST数据集[20]上训练了BiCycleGAN,该数据集具有对齐的色热图像对。

Wang等人[56]提出了一种跨模态感知风格转移网络,从具有实际红外图像清晰结构的RGB图像生成伪红外图像。基于伪红外和RGB图像将配对的想法,他们使用这些伪红外图像来计算RGB图像和真实红外图像之间的位移,以进行配准和融合。感知风格迁移约束控制网络的学习,生成结构增强的伪红外图像。基于多种因素,红外场景具有独特的鲜明特征。这使得学习过程变得复杂,因为单个生成器无法模拟红外场景中所有不相关的特征。从RGB图像中学习所有这些特征来生成逼真的红外图像是非常困难的。为了解决这个问题,Li等人[34]提出了一种基于集成学习的多生成器网络,学习不同的语义信息,用于遥感应用的红外合成。

大多数基于深度学习的红外生成模型在生成红外图像时没有探索物理原理。为了解决这个问题,Wang等人[57]提出了V2IR-GAN来生成红外图像,该图像在生成新图像的同时模拟了红外图像的物理过程。他们开发了三个模块:自发辐射模块、反射辐射模块和透射系数模块,分别对物体产生的自发辐射、周围物体或环境的互反射辐射和大气辐射进行建模。他们开发了一种更基于物理的方法来从RGB图像中生成热图像。

Zhang等[68]提出了红外图像细化网络SIR-GAN,该网络学习Real IR和计算计算合成IR两个域之间的双向映射,以增强模拟红外图像的真实感。他们利用循环一致性损失、SIR精化损失和对抗损失对网络进行了优化。他们使用FlexCam专家红外热成像仪捕获了800个真实红外图像样本。为了生成合成红外图像,他们首先建立目标的三维几何模型,然后利用红外物理建模得到目标的红外纹理。此外,他们还使用了OGRE渲染和大气模型来模拟红外图像。一旦获得这些合成图像,他们使用SIR-GAN将真实感带入合成红外图像。拥有足够的准确标记图像的限制通常会阻碍深度学习系统的训练,导致目标角度、时间和季节变化等方面的多样性不足。当工作在可见光谱之外时,这一挑战变得尤为明显。获取大量的真实遥感图像可能是昂贵的,需要大量的实地调查和后处理工作。值得庆幸的是,合成图像作为一种有价值且具有成本效益的替代品出现了。

7. 红外图像合成中的挑战

尽管合成红外(IR)图像合成具有显着的潜力,但重要的是要注意,该技术并非没有挑战。这些障碍通常围绕着合成图像的准确性和真实感、建模过程的复杂性和道德考虑。

确性和真实感:合成红外图像合成的主要挑战之一是确保图像准确地代表真实的热场景。这不仅包括在红外成像下复制不同物体的外观,还包括模拟影响物体热特征的各种因素,比如它的材料性质、环境条件或观察的角度。

数据多样性:为了训练鲁棒和可靠的模型,需要在合成红外图像中表示广泛的场景。这包括不同的天气条件、时间、季节和物体类型。确保合成数据集中的这种多样性可能是一项具有挑战性的任务。

计算复杂性:生成合成红外图像的过程可能是计算密集型的,需要大量的处理能力和时间。这可能是一个障碍,特别是当需要大量合成图像数据集来训练强大的机器学习模型时。

验证:验证合成红外图像的有效性可能是一个复杂的过程。这通常涉及比较在合成图像上训练的模型与在真实红外图像上训练的模型的性能。然而,由于隐私、安全和后勤问题,获取大量不同的真实红外图像数据集进行比较可能很困难。

伦理考虑:使用合成红外图像也涉及伦理考虑。例如,如果用于监控或面部识别系统,就会出现隐私和同意方面的担忧。此外,如果技术落入坏人之手,还存在滥用的潜在风险。

可泛化性:在合成红外图像上训练的模型需要很好地泛化到现实世界的情况。然而,由于合成图像和真实图像之间的固有差异,可能存在妨碍模型在真实场景中的性能的域间隙。

8. 结论

合成红外图像和视频生成是一个至关重要的研究领域,在许多领域具有重要意义,包括国防,游戏,医疗保健和环境监测。这项全面的调查提供了创建合成红外图像的现有方法的深入概述,包括红外辐射发射的物理,传感器建模,大气衰减,模拟工具和红外场景模拟的计算技术。此外,它还解决了通过深度学习方法用于红外图像生成的红外域中可用的各种数据集,以及基于深度学习的红外场景创建方法。

该调查确定了红外场景生成中的挑战,例如需要更真实和多样化的数据集,需要更准确和高效的模拟工具,以及解决合成和真实红外数据之间的域转移问题的必要性。此外,合成红外图像的发展有可能在自主系统、监控和预测性维护中实现新的应用,对各个行业产生重大影响。

未来的研究方向可能包括更复杂的模拟工具的进步,更大和更多样化的数据集的创建,以及创新的深度学习架构和红外场景生成技术的探索。此外,将合成红外图像与其他模式(如可见光和高光谱成像)集成,可以实现更强大、更准确的场景理解和目标识别。总的来说,这项调查旨在为合成红外图像和视频生成领域的进一步研究和开发提供基础,这有可能改变许多行业和应用。

喜欢的话,请点个赞👍关注吧~

AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术
 最新文章