ROMA:面向未成对夜间红外可见光视频翻译的跨域区域相似性匹配

文摘   汽车   2023-11-07 19:05   上海  

编者按:红外相机具有独特的热成像原理,通常用于增强夜视效果。然而,直接采集到的红外图像不具备颜色信息,细节表现能力较为不足,与可见光图像之间存在较大的域(模态)差异,这使得一般的可见光-红外图像融合方法不能满足下游任务需求。本文提出了一种新颖的基于区域相似性匹配的视频翻译方法,将夜间红外视频翻译为细腻的白天可见光视频。具体来说,本文设计了区域相似性计算方法以及多尺度区域判别器,在视频生成过程中充分利用时序信息以及域不变信息,去除域特有风格的不利影响,提升了跨光谱视频翻译、融合的性能。另外,本文提出了一个夜间红外-夜间可见光-白天可见光数据集以鼓励后续相关研究。



本文译自:

《ROMA: Cross-Domain Region Similarity Matching for Unpaired Nighttime Infrared to Daytime Visible Video Translation》

文章来源:

ACCMM '22: Proceedings of the 30th ACM International Conference on MultimediaOctober 2022 Pages 5294–5302

作者:

Zhenjie Yu1,Kai Chen2,Shuang Li1,Bingfeng Han1,Chi Harold Liu1,Shuigen Wang2

作者单位:
1北京理工大学,2烟台艾睿光电科技有限公司
原文链接:
https://dl.acm.org/doi/10.1145/3503161.3548221

代码链接:
[GitHub - BIT-DA/ROMA: Display of ROMA.](https://github.com/BIT-DA/ROMA)


摘要由于可见光相机在夜间照明不足的情况下成像效果较差,人们通常使用红外相机增强夜视效果。然而,红外相机固有的热成像原理导致其色彩对比度和表现能力不足,这使得从中获取和分析信息变得困难,同时也阻碍了相关应用。虽然未成对的夜晚红外和白天可见视频的域间差距比在相同时刻捕捉的成对视频更大,但建立有效的翻译映射将对各个领域做出贡献。在这种情况下,可以同时利用夜间红外视频中的结构知识和翻译后的白天可见光图像中包含的语义信息。为此,我们提出了一个量身定制的框架ROMA,该框架与我们引入的跨域区域相似性匹配技术相结合,以弥合巨大的模态差距。具体来说,ROMA能够高效地将未成对的夜晚红外视频转换为细粒度的白天可见光视频,同时通过匹配跨域区域相似度来保持时空一致性。此外,我们设计了一个基于多尺度区域的鉴别器,以区分合成与真实的可见光图像的细节。大量实验和评估表明,ROMA优于最先进的方法。此外,我们提供了一个新的具有挑战性的数据集InfraredCity,以鼓励未配对夜间红外和日间可见视频转换的进一步研究。InfraredCity由9个长视频片段组成,包括城市,高速公路和监控场景。该数据集的所有视频片段总共包含603142帧图像,比最近发布的日间红外-可见光数据集IRVI大20倍。

关键词:夜间红外,日间可见光,视频翻译,跨域,生成对抗网络


1 引言 

在现实世界的多媒体应用中,可见光摄像机经常被用来帮助改善各种场景的视觉效果[27]。不幸的是,在黑夜或过曝等极端条件下,它们的适应性甚至比人类的视觉系统更差,如图1所示。在这种情况下,红外传感器可以代替可见光相机作为辅助成像系统。红外相机的热成像原理可以使其稳定地提供足够的的空间或结构描述,但缺乏详细的语义信息,不能很好地满足人们对环境的认知需求[46],这使得原始红外数据不适合直接用于实际任务,例如监控或自动驾驶。即便如此,红外传感器在实际场景(尤其是夜间)的应用是不可或缺的,因此有必要减少红外和可见光数据之间的模态差距。

大量的工作[4,23,37,44,46]深入研究了红外和可见光图像的数据融合,然而它们的结果通常在视觉上保留灰度外观,与可见光图像相比仍然不够清晰。此外,其他方法[6, 15, 16, 34]尝试通过不同的颜色映射函数将红外图像转换为可见图像。然而,它们通常需要复杂的手动干预,这在实际应用中存在一定的限制。随着基于深度学习的生成模型的发展,图像到图像的翻译方法[1, 21, 32, 45]引起了广泛关注,它们通过强大的生成对抗训练技术[19,25]寻求实现高质量的性能。然而,红外与可见光巨大的域间差距使得这些方法无法精确保留合适的红外结构信息和丰富的可见光语义细节。此外,如今大多数实际应用提供视频信号作为输入,这些图像级别的方法由于没有考虑视频的时域一致性而适用性较低。

为此,视频到视频的翻译方法最近在同类翻译方法的基础上又向前迈进了一步。例如,[42,43]合成目标视频并预测未来帧,但在很大程度上依赖于标记好的成对数据。然而,与大多数视频翻译任务类似,夜晚红外和白天可见视频没有像素到像素对齐的训练数据。手动标记不仅耗时昂贵,而且容易引入错误。因此,一些翻译方法[2,3,8,24]放宽了对成对数据的要求。其中,[24]是一种适用于日间红外和可见光视频翻译的框架。夜间红外和白天可见数据之间的巨大域差距将不可避免地降低翻译性能,因为两个域之间对应的关键语义结构在很大程度上被忽略了。此外,它们的特征级别的损失函数将域不变(domain-invariant)和域特有(domain-specific)的表征结合在一起,这种约束可能会在生成过程中混淆这些属性,这会导致翻译结果的结构一致性和语义细节被破坏,特别是在巨大的域差异下。

为了应对这些挑战,我们提出了一种新的单向端到端框架ROMA,该框架与我们引入的跨域区域相似性匹配技术(本文其余部分称为交叉相似性)相结合,以减少夜间红外和日间可见视频之间的差距。具体而言,我们通过优化三种形式的交叉相似映射来关注域不变的结构信息,以生成细粒度的翻译结果并保持时间一致性。此外,我们还提出了一种多尺度区域判别器来增强域特有的细节信息。

如图2所示,输入的真值图像和输出的生成图像之间的交叉相似度图是使用预训练的ViT [11]计算得到的。首先将图像分割成多个区域,每个真值区域可以与生成区域相互作用得到交叉相似度图;同时,也可以计算生成区域和真值区域的相似度图。值得注意的是,所有的交叉相似度图都是跨域计算的,这可以使生成过程专注于学习真实帧和合成帧之间的内容或结构对应关系,同时消除不同风格的负面影响。然后对同一位置计算出的交叉相似图进行匹配,这被称为全局结构交叉相似一致性,因为它在不同的外观下保持了相同的域不变结构信息。此外,我们进一步将这种模式应用于局部区域内,以实现细粒度的结构保留,称为局部结构交叉相似一致性。由于交叉相似图匹配切断了域特有风格信息的影响,因此相似图还可以测量由场景运动引起的结构变化。因此,我们通过最小化从时间输入,时间输出和时间输出,时间输入的图像对计算的相似度图的距离来优化时间交叉相似一致性。

对于域特有的风格增强,本文提出了一种多尺度区域判别器。我们首先通过 ViT 提取真实和合成图像的词元嵌入(token embedding),然后将它们reshape和细化到不同的尺度。最后,利用MLP层对多个表征的合并连接区分真假。另外重要的是,由于缺乏相关高质量数据集,夜间红外到白天可见视频翻译的研究很少。我们提出了一个新的具有挑战性的数据集InfraredCity,由9个包括城市、高速公路和监控场景长视频片段组成,所有片段可以被分为603142帧图像。经过手工筛选,我们额外提供了用于研究的InfraredCity-Lite数据集。综上所述,我们的贡献如下:

•     提出一种简单有效的跨域区域相似性匹配技术,充分利用夜间红外数据的结构知识,增强输入输出之间的结构对应关系,促进生成真实流畅的日间可见光视频。

•     本文提出一种有效的单向端到端框架ROMA,执行交叉相似性匹配,并与引入的多尺度区域判别器相耦合。此外,ROMA在多个数据集上与其他最新基线相比取得了优越的性能。

•     通过ROMA翻译的视频可以进一步应用于现实世界的应用,如目标检测和视频融合。实验结果验证了ROMA算法在夜视场景下的有效性。

•     本文提供了夜间红外到白天可见视频翻译的新数据集,即InfraredCity和InfraredCity- lite,鼓励该领域的进一步研究。

图 1左: 分别显示在InfraredCity数据集中高速公路和监控场景下,通过ROMA显示的夜间红外、夜间可视和翻译后的日间可视视频。右:显示目标检测和视频融合应用程序的ROMA翻译结果。值得注意的是,与夜间红外视频和可见光视频相比,ROMA翻译后的日间视频具有更优越的检测性能,红外视频和ROMA翻译后的视频之间的视频融合结果也更清晰。

2 相关工作

2.1红外到可见光转换

红外到可见光转换是增强夜间视觉感知的一种极具吸引力的策略。通常,红外图像常用于夜间视觉中的上下文增强,将其与可见光数据进行融合[42, 44, 46]。不幸的是,由于光线不足,夜间的可见光图像成效效果不佳,使得提取红外图像的信息有限。同时,灰度图融合结果不符合人眼视觉要求。因此,[6, 34, 40,41]将红外图像视为灰度图像,并试图通过着色方法生成可见光图像。类似地,[17,26, 38, 39]利用GAN [19]模块,并试图通过着色方式将单通道红外图像映射为为三通道RGB图像。虽然这些方法可以生成丰富多彩的结果,但它们容易在没有额外结构约束的情况下扭曲细节。此外,这些图像级方法缺乏对时间一致性的考虑,对红外到可见光视频翻译任务带来了限制。

2.2图像与视频翻译

图像到图像的翻译旨在学习从源域到目标域的映射关系。Pix2pix [33]探索了通过GAN框架[19]使用配对数据集将深度网络应用于图像翻译的可能性。此外,为了放松对成对数据集的要求,CycleGAN[21]引入了循环一致性,在训练过程中保持内容不变。然而,它需要用于反向映射的辅助生成器和判别器,导致计算开销较大。为了避免这种情况,[5, 14]采用了一个单边框架,提出隐式结构一致性来代替循环一致性。[7, 20, 31]在高层语义信息下提出结构一致性。CUT [32]及其后续算法[22]旨在最大化两个域之间的相互信息。虽然这些方法在图像到图像的翻译任务中保证了空间一致性,但由于缺乏对时间一致性的考虑,无法直接应用于视频翻译任务。

为了弥补这一不足,[42, 43] 基于成对的视频数据集提出了基于手工设计的时间一致性来进行视频翻译的方法。然而,对于夜间红外和白天可见的翻译任务,几乎不可能收集像素到像素配对的视频。因此,[3]探索了未配对的视频翻译方法,并率先提出了3D卷积。RecycleGAN [2]利用周期损失和循环损失来保持空间和时间信息的一致性。类似地,MocycleGAN[8]利用周期损失进行结构一致性和基于光流的运动一致性损失来维护时间的连贯性。特别地,I2V-GAN [24]是一种专门的白天红外到可见光转换方法。与RecycleGAN相比,它额外提出了感知循环损失和相似损失来增强时空一致性。尽管I2V-GAN在红外到可见光转换方面取得了可接受的结果,但夜间红外和日间可见数据之间的较大域差距降低了该方法的有效性。此外,这些方法主要在图像和特征层面进行约束,由于两个域之间存在巨大差异,在优化过程中将会不可避免地混淆视频内容和风格信息。因此,红外视频中各区域之间的内在结构相关性会与域风格纠缠在一起,导致生成模糊的可见光视频。

图 2 这是我们通过深度学习得到的输入和合成输出之间计算的交叉相似性图的示例,它是通过计算输入/输出中红框所示区域(键)与输出/输入中的所有区域(查询)之间的标记相似性而得到的。跨域区域相似性图的匹配被用来以增强输入和输出之间的内容和结构对应关系,同时消除域风格的影响。

3 具体方法

对于红外视频片段和可见光视频片段,我们的目的是引导生成器转换为目标可见光风格的片段。具体而言,翻译结果应与保持时空一致性,但对外观适当转换,以与真实可见光视频相似。值得注意的是,在不同的场景中只共享相同的风格信息。翻译过程记为

本节首先介绍我们提出的跨域区域相似性匹配技术。具体地说,我们从空间和时间两个角度提出了三种类型的视频翻译约束,这些约束专注于域不变信息,并切断了域特有信息的负面影响。然后,引入一个多尺度区域判别器,用于在合成结果和实际参考之间区分域特有信息的细节。

图 3 (a)ROMA夜间红外到白天可见翻译的三种形式的交叉相似性约束 (b)交叉相似度匹配的计算过程

3.1跨域区域相似性匹配

我们以输入帧和相应的合成输出为例进行说明。如图2所示,我们首先将划分为不重叠的区域,区域数量为。然后,可以计算出中第源区域的所有区域(region)的交叉相似度图。同样,第目标区域通过与所有源区域的交互得到交叉相似度图。我们将计算交叉相似度图的过程表述如下:

其中  是区域  和  的  维token嵌入, 表示  和  中所有非重叠区域的token嵌入的转置。 表示  中  区域的交叉相似度图, 表示  中  区域的交叉相似度图。在我们获得交叉相似度集合  和  后,通过最小化ViT多层内的距离来执行相似性匹配。具体来说,通过从多个层选择表示,我们得到  和 ,它们代表  和  的不同表征。最后,定义  和  之间的交叉相似度匹配目标为:

其中为余弦距离函数,根据大量实验结果,其性能优于。基于这种跨域区域相似性,我们设计了三种形式的时空一致性约束,如图3所示。

基于全局交叉相似性的结构一致性。给定源域输入帧  和对应合成目标帧 ,全局交叉相似度匹配如下:

其中  和  是  和  中从不同层  中获得的第  帧的交叉相似图的集合。

基于局部交叉相似性的结构一致性。 我们还提出了一种局部优化策略来进一步改善细粒度翻译结果的结构细节。例如,如图3所示,我们首先从输入  中随机选择  个区块(区块面积大于区域)。然后,在  中选择与  中对应区块相同位置的区块。然后,对每对区块进行局部交叉相似性匹配,如下所示:

其中  和  是来自  和  来的不同层  的第  帧的第  区块的交叉相似图的集合。在实验中, 为64,也就是说,我们在每帧中随机选择64个区块。

基于交叉相似度的时序一致性。如图2和图4所示,交叉相似度可以切断域特有风格的负面影响,专注于域不变的结构。因此,相似度图可以用于度量由场景运动引起的结构变化,并进一步优化视频翻译的时间一致性。具体来说,我们用  和  表示  时间  和  的第  区域。 表示  和  所有区域的token嵌入。时间交叉相似度为:

我们将多层时间交叉相似度匹配表述为:

其中  为集合  为集合 。此外,该约束可以扩展成每个训练步骤中与视频片段长度相关的通用版本:

其中  是一个用于调整训练片段长度的超参数,我们简单地将其设置为1以便快速实现。

图 4 不相关区域之间计算的余弦相似度的可视化。显然,交叉相似性可以避免域特有风格的负面影响。

3.2多尺度区域判别器

在本文中,我们设计了一个多尺度区域判别器来区分可见参考和合成目标结果的真假,如图5所示。首先,通过预训练的ViT获得token嵌入 ,并将其重塑为与帧相同的格式,然后以不重叠的方式对具有不同大小感受野的相邻嵌入在空间上进行平均。以大小为2举例,我们对相邻的四个()区域进行平均,并获得比源token具有两倍大的感受野的集合 。同样,我们也可以获得不同规模的  等。通过连接不同尺度内的所有新标记,我们有更多信息的表示,即  和 。然后,使用一个3层的可学习MLP网络对token的真假进行分类。最后,对抗性损失具体如下:

其中  是我们提出的多尺度区域判别器,

图 5 我们所提出的多尺度区域判别器框架。我们通过特征提取器从真实帧和伪造帧中获得嵌入式token。对token进行reshape,使它们在空间上对应到帧的区域。然后对不同感受野的不同尺寸的相邻空间的token求平均,得到连接结果。最后通过MLP模块对它们进行了区分。

3.3整体优化

我们通过最小化以下损失来训练网络:

其中  和  是权重参数。

3.4讨论

在夜间红外到白天可见的翻译中,主要挑战在于有效地保留红外数据的结构细节。感知损失 [12, 20] 和 PatchNCE 损失 [32] 已经用于约束结构一致性。不幸的是,这些损失没有明确分离结构和风格信息。结果的质量受不同领域风格的限制。此外,F/LSeSim [45] 提出了一种自相似策略,通过一个小型可学习网络来增强,以表示领域不变的结构信息。然而,用于训练小网络的数据增强方式并不适合减少红外数据的风格效应。我们通过实验证明了风格对相似性的影响,并在图4中可视化了不相关区域之间的余弦相似性。实验表明,红外风格对自相似匹配产生负面影响。相反,我们的交叉相似性显示出它具有切断风格负面影响的能力,这是为表示红外数据中域不变的结构细节量身定做的。

 4 Infrared City数据集

我们使用双目红外彩色相机(DTC设备)来捕捉夜间红外和可见视频。此外,白天采用可见光相机在相同的场景中捕捉白天可见视频,但与夜间视频没有同步。众所周知,深度模型需要大量的训练数据。我们的InfraredCity数据集包括201,856帧夜间红外图像、178,698帧夜间可见图像和199,430帧白天可见图像,详见表1。InfraredCity数据集的规模约为相对较小的IRVI数据集 [24] 的20倍,后者主要用于白天红外到可见视频的翻译。此外,我们在夜晚从三个场景(城市、高速公路和监控情境)中捕捉这些红外视频。具体而言,城市和高速公路是在晴天和阴天条件下捕获的。该数据集比IRVI更具挑战性,因为夜间红外和白天可见视频之间的领域差距更大,因此需要保留灰度的红外视频的结构信息。

图 6 (a) 监控, (b) 城市, (c)高速公路场景下的InfraredCity-Lite数据集连续帧。它们显示了夜间拍摄的两个红外和可见光视频片段对,以及一个清晰的白天可见视频片段。

为了便于与其他方法进行比较,我们选择了InfraredCity数据集的部分内容来构建InfraredCity-Lite数据集,总共包含41,839帧图像。我们设计了InfraredCity-Lite数据集的三种形式:单图、双图和三图,以符合大多数图像/视频翻译方法的输入要求。选择策略的详细信息可以在附录中找到。我们全面选择了四个流行的与红外相关的数据集(IRVI [24]、VOT2019-RGBTIR [30]、FLIR [13] 和KAIST [18])进行比较,具体细节见表2。如表2所示,我们对数据集大小、视频剪辑数量以及它们各自的主要用途进行了详细的比较。

表 1 InfraredCity和InfraredCity-Lite的数据集结构

表 2 红外数据集对比

   5 实验    

5.1数据集

Infrared City- lite用于夜间红外到白天可见光的翻译。该数据集包含37339个训练帧和4500个测试帧。红外和可见光视频的分辨率均为 。我们的实验主要基于此数据集运行。

IRVI是一个广泛流行的红外到可见光转换数据集,由22,080个训练帧和2272个测试帧组成。该数据集的视频都是在白天拍摄的,需要模型将红外视频变换到可见光结果。分辨率与Infrared City- lite相同。

5.2实验步骤

评估指标。首先,我们使用标准的Fréchet Inception距离(FID)[29]来比较合成的白天可见帧的分布与来自特征空间的真实白天可见帧的分布。在标准设置中,这些特征是由在ImageNet [10]数据集上预训练的InceptionV3 [9]估计的。从特征分布的角度来看,FID评估可以有效地反映生成结果中每帧中的对象(如建筑物、汽车等)是否与真实视频中的对象相似。FID值越低越好。此外,为了进一步评估与夜间可见图像相比的翻译结果的改进,我们汇报了目标检测的YOLO Score。YOLO Score表示根据现成的目标检测网络YOLOv3 [36]来衡量翻译帧的质量。我们对所有方法采用相同的检测模型和设置进行公平比较。因此,YOLO Score是一个有效的度量标准,用于衡量生成结果的逼真程度。较高的YOLO分数表示生成的帧更真实。

实施细节。我们将ROMA设计为一个单边框架,包括一个生成器和一个判别器。与[21]一致,我们采用编码器-解码器架构作为我们的骨干网络,并将此应用于我们的实验中的所有方法以进行公平比较。我们的多尺度区域判别器的  被设置为[3, 5, 7]以获得不同的感受野。对于局部结构的一致性计算,区块数量  为64,区域大小为75 × 75。为了平衡质量提升和计算成本, 中的  设置为2。超参数  和  分别设置为5.0、5.0和1.0。

5.3与其他方法的比较

我们将我们的方法与几种最先进的未成对图像到图像和视频到视频翻译方法进行比较,即CUT [32]、CycleGAN [21]、F/LSeSim [45]、Recycle-GAN [2]、MocycleGAN [8] 和I2V-GAN [24]。值得注意的是,我们只使用夜间红外和白天可见的视频作为训练输入。夜间可见视频仅用于比较。

在InfraredCity-Lite数据集上的比较。如表3所示,我们获得了最先进的性能,这表明ROMA可以显着提高生成的白天可见帧的质量。特别地,F/LSeSim这种专注于维护结构的方法实现了与专门的红外到可见翻译方法I2V-GAN相似的结果,这证实了维护红外视频的结构信息是一个关键挑战。此外,与它们相比,我们的ROMA在FID指标上平均相对提高了22.3%。尤其在晴天高速公路场景上相对提高了35.5%。这些改进表明了ROMA在生成出色的白天可见结果特别是保持域不变结构方面的优势。

表 3不同翻译方法在InfraredCity-Lite上的Fréchet Inception Distance (FID)。FID越低越好。

在IRVI数据集上的比较。我们主要与IRVI上最先进的I2V-GAN方法进行比较,结果见表4。值得注意的是,我们的ROMA在所有场景上都实现了排名第一的FID性能,相对于I2V-GAN平均提高了26.2%,在sub-2场景上提高了57.9%。这再次验证了我们在保持红外结构方面的有效性。

表 4  不同翻译方法在IRVI上的Fréchet Inception Distance (FID) 指标。越低越好。

消融实验。我们对这两个数据集进行了消融实验,研究ROMA的每个设计如何影响整个框架,结果显示在表3和表4中。我们的区域跨领域相似性匹配约束( 和 )对提高生成的可见结果的质量有很大贡献。值得注意的是,多尺度区域判别器带来的改进不逊色于交叉相似性。

定性比较。我们在InfraredCity-Lite数据集上与其他方法进行了定性比较。从图7和图8中可以看到,ROMA生成的白天可见光帧在视觉上优于其他方法。其他方法的约束在开始时帮助生成器轻松地学习结构信息,但随着训练过程的进行,由于源样式和目标样式之间的显著差异,学习变得困难。相比之下,我们的交叉相似性匹配技术一直消除风格的负面影响,这有助于生成器始终轻松地学习结构信息。此外,如图8所示,基线方法都生成了整体颜色略不准确的可见光帧,特别是其生成的卡车令人失望。相比之下,ROMA展示了更符合真实白天可见光视频风格的结果。此外,在我们的结果中还可以观察到良好的时空连贯性。

图 7在InfraredCity-lite上定性比较不同方法。ROMA在细节上有明显的优势。

图 8 高速公路场景的翻译结果。ROMA利用了保持结构和时间一致性的优势。我们用红色边界框指出了容易出错的关键区域

训练时长。我们还进行了效率比较,因为这对于实际应用至关重要。图9(a)展示了不同方法在统一标准下的效率,ROMA相对于其他方法获得了最佳性能。特别是,为了获得最佳FID分数,ROMA只需大约11.7小时的时间,比F/LSeSim快大约11倍。此外,I2V-GAN包括了许多特征级和像素级的用于空间和时间一致性的手工设计约束,这些约束可以带来改进,但也使收敛变得困难。在ROMA中设计的域不变表示以及交叉相似性不仅能很好地保持结构,还有助于生成器直接学习结构信息。图9(b)的结果进一步展示了ROMA的效率。它表明ROMA在训练的早期阶段就可以生成出色的细节。

图 9 (a)不同时间节点FID折线图。我们运行所有方法100个epoch,同时保持每个epoch相同数量的训练数据。黑色边框的节点表示结束时间。(b)我们显示了不同Epoch时ROMA生成的质量。

5.4目标检测

目标检测是计算机视觉中的一个基础和核心问题。研究[28, 35, 36]在大规模注释数据集的优势下取得了显著的改进。然而,在夜间运作时,目标检测模型往往容易受到数据变化的影响。在这种情况下,稳定的夜间红外到白天可见光的翻译是一个理想的解决方案。

为了进一步评估生成结果的质量,我们利用YOLO Score来评估生成的结果。从图10中,我们可以观察到翻译后的白天视频确实有利于目标检测。表5中的YOLO Score展现了ROMA带来的的性能提升。生成的车辆和视频越生动,目标检测就越准确。我们的ROMA获得了50.1的最高分数,这表明我们在翻译任务中取得了卓越的性能。

图 10 夜间红外、夜间可见和转换为白天可见的车辆检测结果比较。检测任务由预训练YOLOv3 [35]模型执行。我们的目标是生成与实际可见结果尽可能相似的翻译结果,尤其是在细节上。

5.5视频融合

在夜间视觉中,通常采用红外(IR)视觉技术将其与可见光(VI)图像融合来增强上下文信息[23, 27, 46]。然而,IR/VI图像融合方法只在黎明时分才是理想的,因为此时可见光相机仍能捕捉到相对清晰的可见光场景。此外,融合红外视频和可见光视频是具有挑战性的,因为它们在像素级别不是成对的,并且视频还具有时间上的连贯性。

ROMA翻译的白天可见光结果在像素级别是清晰的,并与输入的红外视频相匹配。从图11中可以看出,夜间红外帧和翻译后的白天可见光帧的融合结果与夜间红外和夜间可见光帧相比更加清晰并且语义明确。

图 11 视频融合结果的比较。将夜间红外视频与糟糕的夜间可见光视频融合会带来模糊的结果,而与翻译后的白天可见光视频融合则会产生清晰的结果。

   6 结论    

本文引入了一个定制化框架ROMA,通过提出的跨域区域相似度匹配技术,将未配对的夜间红外视频转换为细粒度的日间可见光视频,有效地传递了红外数据的结构知识并保持了时空一致性。为了进一步提高翻译视频的真实感,我们还设计了一个多尺度区域鉴别器。大量实验表明,ROMA在白天可见光视频生成任务上具有最先进的性能。在夜间目标检测和视频融合任务上的测试表明,ROMA可以为夜视应用生成可靠的结果。此外,我们提供了一个用于夜间红外到白天可见视频的转换的具有挑战性的数据集Infrared City,希望鼓励该领域的更多研究。

参考文献


联系人:唐老师  
电话:13917148827
邮箱:tangyanqin@tongji.edu.cn

点“阅读原文”获取论文

同济智能汽车研究所
同济智能汽车研究所公共信息展示平台
 最新文章