Thermal3D-GS:热红外新视点合成的物理诱导三维高斯(ECCV2024)

文摘   2024-11-16 07:00   中国香港  

论文题目

Thermal3D-GS: Physics-induced 3D Gaussians

for Thermal Infrared Novel-view Synthesis

1、简介

基于可见光的新视点合成技术得到了广泛的研究。与可见光成像相比,热红外成像具有全天候成像和强穿透性的优势,为夜间和恶劣天气情况下的重建提供了更多的可能性。然而,热红外成像受大气透射效应和热传导等物理特性的影响,影响了热红外场景中复杂细节的精确重建,表现为合成图像中存在漂浮物和边缘特征不清晰等问题。为了解决这些限制,本文介绍了一种物理诱导的三维高斯溅射方法,称为Thermal3D-GS。Thermal3D-GS首先使用神经网络模拟三维介质中的大气传输效应和热传导。此外,在优化目标中引入温度一致性约束,提高了热红外图像的重建精度。此外,为了验证方法的有效性,创建了该领域的第一个大规模基准数据集,名为热红外Novelview合成数据集(TI-NSD)。该数据集包括20个真实的热红外视频场景,涵盖室内、室外和无人机场景,共计6664帧热红外图像数据。基于该数据集,本文通过实验验证了Thermal3D-GS的有效性。结果表明,方法优于基线方法,PSNR提高了3.03 dB,并显著解决了基线方法中存在的浮动和边缘特征不清晰的问题。

 欢迎加入自动驾驶实战群


本文介绍了一种物理诱导的三维高斯溅射方法,称为Thermal3D-GS,用于热红外新视点合成任务。该方法利用热红外图像独特的物理特性,利用深度神经网络模拟大气传输效应和热传导的相应参数和物理过程。这些参数和过程分别用于解决合成图像中的浮动和边缘特征不清晰的问题。此外,引入温度一致性约束作为热红外成像对象的物理先验,将其形式化并作为损失函数纳入优化目标,以提高网络的性能。

为了验证该方法的有效性,构建了大规模热红外新视点合成数据集(TI-NSD)。TI-NSD由20个真实热红外场景组成,包括7个室内场景、7个地面室外场景和6个基于UAv的场景,共计6664帧热红外图像,TI-NSD是世界上第一个用于热红外新视点合成任务的广泛数据集,为推进该领域的研究提供了重要的基准,在TI-NSD上进行了大量实验,以评估新视图合成方法的性能,包括基于nerf的方法和3D-GS方法作为基线比较。经过验证,与基准算法3D-GS相比,所提出的Thermal3D-GS具有优越的性能。在20个场景中,Thermal3D-GS实现了平均改进3D-GS的PSNR为3.03 dB。此外,Thermal3D-GS在视觉结果方面明显优于比较方法。这强调了所提出的方法在新观点合成中的实质性优势。

本文的贡献可以概括如下:

(1)提出了一种专门用于热红外新视点合成任务的物理诱导三维高斯溅射方法,称为Thermal3DGS。Thermal3D-GS通过神经网络模拟大气传输和热传导物理过程来优化网络,并引入温度一致性约束作为损失函数来优化网络。

(2)建立了首个大规模热红外新视点合成数据集TI-NSD。TI-NSD由20个真实热红外场景组成,包括7个室内场景、7个地面室外场景和6个基于UAv的场景,共计6664帧热红外图像。

(3)在TI-NSD上进行了大量的实验,评估了主流方法在本文数据集上的性能。此外,通过实验,与基线方法相比,该方法的PSNR平均提高了3.03 dB。

2、相关工作

1)新视点合成在可见光领域得到了广泛的研究,隐式神经表示方法和三维高斯飞溅方法在合成新视图方面都表现出优异的能力。然而,可见光场景的图像质量对天气条件很敏感,云、雾等因素会降低图像质量,导致重建失败。相比之下,热红外图像具有独特的全天候成像能力,不受光学照明和天气限制的影响。这些特点使得在采矿隧道、多雾环境和夜间场景等强环境干扰的场景中合成新视图成为可能,凸显了热红外新视图合成任务的巨大潜力。

然而,热红外图像的物理特性也给高精度新视点合成任务带来了挑战。在热红外成像中,大气透射效应随视点的变化而变化,导致同一物体在不同视点上的特征存在差异。因此,合成的新视点图像可能显示色块差异或浮动伪影。此外,物体之间的热传导减少了不同物体的边界信息,导致在新的视点图像中出现边缘特征模糊或消失等问题。虽然这些特征可以使用物理方程形式化和建模,但成像过程的复杂性往往导致直接物理推导的多解问题。

2)新颖视图合成数据集的详细比较见表1

3、热红外新视角合成数据集

收集了一个名为TI-NSD的大型数据集,用于热红外新视角合成领域,包括20个不同的场景。每个场景以视频格式捕获大约90秒,产生超过50,000帧的原始数据。新视角合成数据以每秒3到4帧的固定速率持续提取,初始点云和相机姿态采集由colmap估计。最终获得了一个包含6664张图像的数据集,横跨20个场景,指定用于训练和测试目的。

根据新视图合成数据集的流行标准,将这些场景分为室内、室外和UAV场景三种类型,包括7个室内场景、7个地面室外场景和6个基于UAV的场景。室内场景包含不同温度范围的物体,如冰可乐、热水瓶和固定的人体模型。户外场景描绘了不同光照和天气条件下的物体,包括下雨、下雪和晴天。UA V场景展示了不同的拍摄角度,如平面和头顶视角。为了收集数据,使用了Zenmuse XT热像仪,配备了非冷却氧化钒微测热计。所有图像的光谱范围为7.513.5µm,像素间距为17µm,焦距为13mm,分辨率为480 × 720像素。

TI-NSD是应用于热红外新视角合成相关任务的首个数据集。

4 Thermal3D-GS

1)3D-GS存在的问题,利用3D- gs生成三维高斯函数,其特征参数为位置(x)和不透明度(σ)。每个三维高斯图像都包含球面谐波(SH)来捕捉与视图相关的外观。通过对高斯密度的自适应控制操作,通过对3D-GS参数(如位置、协方差和SH系数)的迭代优化,采用快速可微分渲染器实现最终的2D渲染。然而,这种方法没有考虑热红外辐射的独特物理特性,导致了浮点和模糊的边缘。

2)动机,假设一个归一化的热红外三维空间,记为X,其中物体的三维信息完全由其实际的热红外辐射决定,不受各种可能的影响因素的影响。因此,获得二维图像的过程可以被理解为

式中,f(·)表示将3D物体投影到2D图像中而不产生成像处理效果的理想过程。IMt,θ表示成像过程中物理效应的影响。由于物理效应随角度θ和时间t的不同而变化,IMt,θ是时间t和角度θ的函数。

新视图合成的过程可以描述为:

成像效果随角度和时间的不同而不同,导致每个xt,θ对应一个不同的xt,θ。因此,在不考虑成像影响的重建过程中,eX本质上是Xt、θ的最大交点,与真实X有较大偏差。

一旦考虑到成像影响,新视图合成将被重新表述为:

其中,~X '可以认为是X的最准确估计。

本文主要研究大气传输和热传导对热成像的物理影响,如图1所示。

大气透射效应:大气透射效应导致热辐射因吸收和散射而衰减,导致热红外图像的辐射强度与实际三维物体的辐射强度相比明显降低。这种衰减随成像角度的不同而不同,说明同一物体在多个视角下的成像结果不同。在3D-GS优化过程中,学习到一个相对平衡的eX,该eX投影的eX与实际x存在一定程度的差异。为了弥补这种差异,3D-GS倾向于学习最优值θ,确保:

热传导:高温物体表现出明显的热传导,加热周围介质,导致明显的伪影,而低温物体表现出不太明显的热传导,不太严重的伪影。伪影的辐射强度随着与物体的距离逐渐减小,经常在图像中表现为物体的边缘。由热传导产生的伪影边缘在多视点热红外图像中表现出变化。在整个优化过程中,类似于多帧平均的概念,获得一个平均的伪边缘eX,通常导致边缘模糊eX的表现。

3)总体框架,根据上述成像过程的描述Thermal3D-GS的总体框架如图2所示,本研究提取了3D-GS合成的原始t、x、SH。开发了大气传输场(ATF)来优化合成图像中存在的纤维结构的SH,从而得到优化的高斯分布。随后,设计热传导模块(TCM)进一步细化合成图像,特别是针对模糊的边缘。此外,本文还引入了温度一致性损失来约束网络,从而提高了网络对不规则区域的灵敏度和鲁棒性。

4)大气传输场(ATF),在大气传播过程中,热辐射受到各种分子和粒子的影响。温室气体,如水蒸气和二氧化碳,对热红外辐射有很强的吸收能力。此外,氮、氧分子和云粒子也会对大气中的热辐射进行散射。因此,热辐射在穿过大气后经历衰减,这一现象由布格-朗伯-比尔定律描述:

式中,I0表示传播距离为0时的初始辐射强度;µ=µabs +µsca为介质衰减系数,分别由吸收和散射分量组成;d表示传播距离。

大气中热辐射的吸收和散射受温度、湿度等因素的影响。假设每个三维高斯在空间中代表一个小的连续区域,因此它们共享均匀的衰减系数(µabs,µsca和d)。同时假设热辐射强度的衰减仅对应于热红外图像内灰度的降低。

使用MLP网络(ATF)来解耦衰减和几何形状的影响,从而实现无衰减几何形状和衰减系数的独立学习。该方法有效减轻了大气传输对热红外的影响,如图2中黄色框所示,ATF网络以位置编码的三维高斯位置γ(x)和拍摄时间γ(t)作为输入,确定该特定时刻三维高斯的衰减系数:

在典型的新视图合成数据集中,每帧之间的时间间隔保持不变。因此采用1、2等的自然序列来表示归一化拍摄时间。γ为位置编码:

其中L是频率的个数,对于x和t L都= 10。

然后将得到的系数应用于每个三维高斯的归一化辐射强度,得到衰减后的真实辐射强度:

这里,SH表示这个三维高斯函数的球谐函数的系数。在可见光成像中,其衰减对应于光在该位置的衰减;在热红外成像中,其衰减等于该位置热辐射的衰减。

设ATF网络深度D = 8,隐藏层维数W = 256。同时设置初始参数µabs =µsca = 0, d = 1。

5)热传导模块(TCM),热传导是一种普遍存在的现象,通过分子振动和物质内部的碰撞促进热能的传递。无论是在固体、液体还是气体中,热传导都表现为存在温差。在这个过程中,能量从高温区域的高能分子向低温区域的低能分子转移,达到热平衡。传热速率取决于材料的导热性和温度梯度。在热红外成像中,不同物体之间的热传导会导致物体边界模糊。通过结合热传导建模,可以全面把握物体之间的能量传递,增强对温度变化的敏感性,提高新视合成精度。

在二维温度场中,采用特定的直角坐标系,微元dS = (dx, dy)。每个点和时间t的温度,记为u = u(t, x, y),作为热运动的代表量。

热流遵循傅立叶热传导定律,热量沿特定方向从高温向低温移动。在某一方向上移动的热量与该方向上温度下降的速率成正比。这种现象的数学表达式为:

式中,Qn为n方向的热流密度矢量,表示单位时间内在n方向上通过单位面积的热量。k(x, y;N)为介质的导热系数,在介质均匀各向同性假设下保持常数,记为k。

二维温度场热传导公式为:

其中为二维拉普拉斯算子,α = k/cρ是反映物质对热传导反应速度的常数。

由于热红外图像代表的是二维温度场,因此公式14也适用于此。该方程表明,热传导对热成像的影响受热成像常数α和二阶微分的支配。

考虑到α在像素上的异质性,传统的基于物理的方法在准确模拟各种因素的影响时遇到了挑战。因此,本文引入了一种基于深度学习的TCM,可以有效地捕获和建模原始红外图像与二阶梯度图像之间的复杂关系,模拟复杂的热特性。如图2中蓝色框所示,TCM首先提取输入图像的二阶梯度特征,然后利用卷积块将输入图像与梯度信息融合。利用这一方法模拟了不同像素位置的α,并通过残余加法机制将其纳入重建过程,以解决热传导引起的热损失。将TCM的卷积层深度设为D = 3,输入特征维数Wi = [2n, n, n],输出特征维数Wo = [n, n, n],其中n表示输入图像特征维数。

6)温度一致性损失,在现实世界中,物体表面的温度通常表现为平滑和连续的变化,很少有突然的变化。这种平滑的过渡表明物体内部和表面的热量分布相对均匀。在热图像中,这种平滑性通常体现在渐变的灰度分布中,呈现很少的角点。因此,图像中角的出现更有可能归因于模型学习中的错误。为了解决这个问题,本文引入了不连续损失,旨在促使模型将更多的注意力分配到有角点的区域。这些区域表明了图像中潜在的问题或异常,从而增强了模型对不规则情况的敏感性,增强了其鲁棒性。

在Harris角点检测算法中,构造角点响应函数R的公式如下:

其中,M表示图像的协方差矩阵,det(·)表示矩阵的行列式,trace(·)表示矩阵的轨迹。

因此,利用角点对应的函数,不连续损失可表示为:

式中,第一项表示归一化角点响应,表示像素为角点的可能性。第二项作为与训练迭代次数相关的衰减因子,这里,itert设置为5000。第三项是绝对损失,表示生成的图像与真值之间的绝对距离。

因此,最终损失公式如下,在所有的测试中都使用λdis = λ = 0.2。

5 实验

1)与以前的方法的比较

2)与以往的工作相比较定量评价

3)消融研究的可视化

4)消融研究结果


最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。


Ai fighting
全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
 最新文章