华为/上交通联合提出 MSSIDD:多传感器去噪基准,移动摄像头去噪模型可迁移性评估的新视角 !

文摘   2025-01-07 07:00   上海  



     

移动终端上的摄像头在不同的拍摄模式下配备了不同的传感器,这些传感器之间的原始域去噪模型的可迁移性具有重要意义,但仍有大量可探索的空间。

工业解决方案要么为不同的传感器开发独特的训练策略和模型,要么忽略传感器之间的差异,仅将现有模型扩展到新传感器,导致训练繁琐或性能不佳。

在本文中,作者提出一个新的基准数据集,即多传感器SIDD(MSSIDD)数据集,这是首个专门用于评估去噪模型传感器可迁移性的原始域数据集。

MSSIDD数据集包括60,000张来自六个不同传感器的原始图像,这些图像通过不同的相机传感器参数将sRGB图像退化而来。

此外,作者提出了一种传感器一致性训练框架,使得去噪模型能够学习传感器不变的特征,从而便于一致模型在新传感器上的泛化。

作者在新提出的MSSIDD数据集上评估了以前的艺术,实验结果验证了所提出方法的有效性。

作者的数据集可在https://www.kaggle.com/datasets/sjtuwh/mssidd处找到。

1 Introduction

光学信号在相机中经过一系列处理后,获得符合人眼观察的电信号(图像),这个过程被称为图像信号处理(ISP),其中核心步骤是原始域去噪。近年来,图像恢复取得了显著进展,已经被广泛应用于移动终端的原始域去噪。来自相机传感器的图像通常包含 shot 和 read noise,这些噪声在不同镜头和传感器之间有显著差异[11, 31],简单地将去噪模型扩展到新传感器将导致性能不佳。因此,原始域去噪模型在不同传感器之间的可移植性成为一个不可忽视的问题。

移动终端中用于去噪的摄像头内存空间有限,因此为每个特定传感器训练不同的模型并非明智之举。此外,传感器的不同噪声水平可能需要不同的训练策略,而针对不同传感器进行优化也意味着大量的工作量。

通常,将具有相似噪声水平的某些传感器合并,在训练中使用单个模型来适应多个传感器的低质量和高质量数据对。然而,这些传感器的数据直接合并往往导致性能下降,因为即使相似的传感器也可能表现出不同的特性(参见图4),使得去噪模型的优化变得困难。

此外,直接合并的模型很难扩展到新的传感器,而用新添加的传感器微调模型可能会损害之前优化的传感器的性能。在本文中,作者关注增强去噪模型的传感器迁移能力,使训练好的模型在不损害去噪性能的情况下,可以轻松地转移到未见过的传感器。

 欢迎加入自动驾驶实战群



传感器泛化依赖于多传感器数据集,目前该领域缺乏此类数据集。现有数据集在不同的数据源之间差异不大,并且没有很好地划分以实现可移植性评估。为解决这一数据稀缺问题并鼓励未来研究,作者首次引入了一个多传感器SIDD(MSSIDD)数据集,这是一个用于模拟多传感器场景的原始域基准。作者将原始域处理的真实相机与SIDD数据集中的sRGB图像反向转换到原始域[11]。经过反向转换和镶嵌后,作者得到了由相机传感器捕获的干净原始图像。作者从六个传感器收集校准参数,并根据这些参数对反向转换的干净原始图像添加噪声,从而得到对应每个传感器的退化噪声图像。总共,作者得到了六个不同传感器60,000对噪声和干净原始图像。

基于多传感器数据集,作者提出了一种传感器一致性方法,该方法在网络训练过程中鼓励学习传感器不变的表示。对于同一图像中的不同传感器,作者鼓励网络提取尽可能相似的特征,作者称这种相应的约束为图像内监督。这种方法也可以理解为鼓励网络学习传感器不变的去噪能力,从而将处理传感器差异与去噪解耦。然后,作者认为这种一致性监督也可以存在于不同图像之间。具体而言,作者将网络的一部分指定为主要负责去噪,并在该子网络的输入和输出位置施加一致性约束,作者称其为图像间监督。作者利用多个图像对子网络的输入差异作为参考来约束它们相应输出差异。借鉴领域泛化[21]领域最近的工作,作者将对抗训练引入优化中。作者设计了一种传感器分类网络,通过梯度反转层增加传感器混淆,从而迫使网络提取传感器无关的特征。这些传感器一致性监督赋予网络出色的传感器迁移能力。

为了建立 Baseline 并验证作者提出的方法的有效性,作者在MSSIDD数据集上评估了几种代表性的图像去噪方法。实验结果表明,作者的方法具有有效的传感器传输能力。

作者的贡献可以概括如下:

(1) 作者提出了MSSIDD数据集,该数据集包括由六个摄像头传感器生成的数据对,用于评估去噪方法的传感器可迁移性。

(2) 作者通过精心设计的图像内和图像间监督以及对抗训练,提出了一种传感器一致性监督方法,从而赋予去噪模型强大的传感器泛化能力。

(3) 作者评估了几种经典去噪方法,以建立基准,并讨论了作者的方法的有效性。

2 Related Work

图像去噪旨在从图像中移除噪声,以获得干净的图像,近年来在去噪领域取得了显著进展。传统方法通常采用人工设计的图像先验,这使得它们在处理去噪问题方面具有灵活性。基于卷积神经网络(CNN)的早期先驱实现了令人印象深刻的图像修复性能。为了进一步提高去噪性能,诸如 Short-Cut ,U型结构[57],注意力机制[5, 35, 55]以及其他方法等大量架构设计被广泛探索。近年来,基于 Transformer 的去噪方法通过提供捕捉长程像素依赖性的强大能力,使去噪性能得到了显著提升。

图像去噪的演变也依赖于去噪数据集的发展,例如DND [44]和SIDD [3]。基于某些逆变换方法[11]的提出,近年来也提出了一些用于原始域去噪的去噪数据生成方法[31, 33]。

之前的方法中的数据生成通常来自不同的相机,但它们在相机之间差异很小,或者没有很好地划分,这使得直接将它们应用于去噪模型的迁移性评估变得困难。基于此,作者提出了第一个多传感器数据集来评估传感器。

3 Dataset

当前基于学习的去噪方法依赖于大量的配对数据 ,直接使用相机收集这样的数据是困难的且耗时的,因为不同传感器的图像对齐是具有挑战性的。以前的工作,如 ,通过从互联网图像开始并执行反变换来生成配对训练数据,然后在相机ISP后处理后添加噪声,以模拟原始图像上的真实相机噪声。然后,根据噪声校准参数在去噪后的图像中添加噪声以模拟真实相机噪声。受到这样的启发,为了促进多传感器可转移性研究,作者从现有的sRGB图像中开发了第一个多传感器去噪数据集。由于源清晰sRGB图像来源于SIDD数据集 [3]的 GT 值,作者称作者的多传感器去噪数据集为多传感器SIDD(MSSIDD)。

ISP Pipeline with Inverse

相机光学传感器输出的电信号分布与自然界图像分布有显著差异。这需要一系列后处理步骤将捕获的原始图像转换为sRGB域。在本节中,作者将概述将捕获的电信号转换为符合人类视觉的sRGB图像所需的步骤。为了便于sRGB图像的反向转换,作者还将描述这些操作的反向过程。

噪声。原始图像中的噪声可以广泛归类为乘法噪声和加法噪声[10]。乘法噪声源于相机光学传感器像素每单位时间内接收到的光子数波动。这种噪声类似于雨天地面上的斑驳痕迹,被称为光子噪声[8]并遵循泊松分布。加法噪声源于信号处理过程中的电压波动,包括信号读取、ISO增益和模拟-数字转换。这种噪声被称为读噪声[14],并遵循零均值高斯分布。通过将这两种噪声源相结合,作者可以建立噪声传感器输出I和真实信号(即模拟-数字单元,ADU)x之间的关系,即 , 其中是读噪声的方差,是光子噪声的方差。随后,作者将光子噪声和读噪声定义为相机感光度(即ISO)的函数。

在[27]中,通过校准可以获得相机噪声参数

去噪和去模糊化。由于原始图像[51]中的简单噪声分布,ISP系统通常在原始域上进行去噪以获得干净的原始图像。原始图像的RGB分量按照Bayer模式[45]排列,这反映了相机光学传感器的像素排列。为了生成全分辨率RGB图像,已经开发了各种去模糊化算法[13, 22, 29, 43]。作者采用双线性插值进行去模糊化,遵循[11]。去模糊化的逆过程,称为去模糊化,是直接的。作者只需将RGB图像对应通道进行下采样,即可获得4通道的原始图像。

数字增益。当前ISP通过统一修改原始图像中所有像素的值来调整图像的亮度,以响应图像的过曝或欠曝,这个过程由摄像机自动曝光(AE)算法[9]处理。由于自动曝光算法像黑箱一样运作,因此确定每个图像的准确数字增益(dgain)值具有挑战性。在本研究中,作者为简单起见设定了一个固定的增益值。反向过程涉及将每个像素值乘以dgain的倒数,定义为。为确保作者数据集的多样性,作者对每个图像的倒增益值进行随机取样,假设倒增益遵循均值为0.65,标准差为0.2的高斯分布。

白平衡。白平衡是消除不现实的色彩偏差,使在现实生活中呈白色的物体在照片中被渲染为白色。典型的白平衡 [4, 7] 是通过调整红通道和蓝通道的数字增益来实现的。对于特定摄像机传感器,作者可以在不同的标准光源下获取其白平衡参数,这些参数由红增益  和蓝增益  表示。常见的标准光源 [2] 包括 D65, D75, D50, TL84, CWF, U35,作者通过多个光源的白平衡参数形成凸组合,因为实际环境中的 ambient 照明通常涉及不同来源的辐射 [33]。作者随机选择两个光源的 AWB 参数,并执行随机加权平均以获得 AWB 参数 。反 AWB 过程涉及取 AWB 参数的倒数并应用相应的通道增益。为了防止合成数据集缺少高光,作者遵循 [11] 来安全处理过饱和像素。

色彩校正。 摄像机传感器的颜色特性通常不满足Luther条件[28],这意味着传感器的RGB响应不是线性独立的。因此,需要使用色彩校正来纠正传感器的颜色特性,使其接近标准观察者[28]。为了简单起见,这种过程通常表示为3x3矩阵,称为色彩校正矩阵(CCM)。制造商通常提供预设的白天和夜晚色彩校正矩阵,分别称为。在数据生成过程中,作者随机选择两个光源,并对其对应的CCM进行随机线性组合,。反过程涉及将CCM应用于像素值的反转,由给出。

伽马校正 伽马校正将更多的动态范围分配给图像中的低强度像素,因为人类的感知对图像较暗区域的梯度更敏感 [25]。伽马校正及其逆运算如下:,,其中通常设置为

遵循[11]的研究,作者对图像生成进行反色调映射。这意味着

Data Generation

相机光学传感器捕获的电信号经过一系列ISP(图像传感器处理)过程,以生成符合人类视觉感知的人眼适应性sRGB图像。这个过程通常包括原始域去噪、解摩尔、数字增益、白平衡、颜色校正、伽马校正和色调映射。从SIDD数据集的干净sRGB图像开始,作者依次应用反色调映射、反伽马校正、反颜色校正、反白平衡并调整数字增益、反解摩尔(拼图),以模拟原始域中的干净图像,如图1所示。作者展示了白平衡和颜色校正对图像颜色的影响,如图2所示。

利用来自[1]的六种传感器参数,对SIDD中的每张图像,作者按照每个传感器专用的BGGR Bayer模式生成六个相应的干净原始图像。然后,作者对干净的原始图像进行噪声降解,以指定ISO值。具体来说,作者首先从干净的原始图像中减去黑电平(BLC),以减轻暗电流的影响,然后从2400~12800的范围内随机选择一个ISO值。作者计算光子噪声和读取噪声的强度,如公式1所示,从而得到噪声的方差σ²=σshot²x+σread²。然后,根据分布生成随机噪声,并将其叠加到原始干净的原始图像上。在加上黑电平补偿后,作者得到了目标噪声原始图像,如图3所示,作者可以观察到不同传感器之间存在显著的差异。

Benchmark

作者从SIDD数据集[11]的训练集和测试集中分别提取了10,000张图像和1,000张图像,并在降噪和添加噪声后生成了MSSIDD数据集。MSSIDD数据集包含六个传感器,分别标为传感器1、传感器2、传感器3、传感器4、传感器5和传感器6,总共产生了60,000对训练数据和6,000对验证数据。对于数据集中的每一张图像,作者还记录了dgain、AWB和CCM参数,这些参数存储在文件中。作者分析了每个传感器关于真实信号ADU的SNR和总噪声方差,以及与相机ISO相关的读取和拍摄噪声,如图4所示。作者可以观察到,MSSIDD数据集中的六个传感器涵盖了不同程度的噪声强度。

MSSIDD数据集可用于传感器可转移性研究。给定一组已知的传感器和一个新添加的未知传感器,目标是将训练在已知传感器上的模型推广到新添加的传感器上。模型在新添加的传感器上的性能进行评估。对于已知传感器中的数据对,可以表示为。考虑一个去噪网络,其中表示网络参数,作者在这种传感器上的损失定义如下:

在论文中, 表示重建损失,例如 PSNR 损失。传感器迁移的目标是最小化所有传感器中的最坏传感器的重建损失。

在移动终端上的去噪模型数量限制下,作者不能为每个传感器指定特定的模型。对新添加的传感器进行微调可能会损害已知传感器的性能,而将现有模型适应到新传感器则是一个更好的选择。考虑到  和  之间的领域转变,传感器泛化是一个重要且具有挑战性的问题。值得注意的是,作者的数据集可用于无监督和半监督任务。

4 Method

在本节中,作者详细阐述了传感器一致性监督,该监督通过图像内和图像间的约束,结合对抗训练,赋予去噪模型强大的传感器泛化能力。所提出的监督鼓励模型将传感器相关信息处理与去噪功能解耦,使模型的一部分子结构仅专注于去噪任务,从而提高了模型的可迁移性。作者的模型结构如图5所示。

Intra- and Inter-Image Supervision

假设去噪网络为,其中从中提取的子网络(如图5中的绿色部分)为,作者希望子网络仅关注去噪,有效提取传感器无关的特征。去噪网络通常涉及特征图的降采样和上采样,设计具有近似对称结构的特征图,通常包含如UNet[46]等具有多尺度网络结构的子网络。

因此,从子网络的对称位置中提取一致大小的特征是方便的。对于一张图像,作者可以得到该图像对应的不同传感器的噪声图像张。在子网络的第阶段,作者提取尺度一致的输入和输出,分别表示为。受[17, 38, 47]启发,作者希望同一图像不同传感器的特征尽可能相似,即中的特征尽可能一致。然而,同一图像不同传感器的噪声图像之间也存在差异,直接约束可能不利于模型收敛。因此,作者设计同一图像不同传感器之间的监督关系形式。

在作者的实验中,作者在多个尺度上应用一致性约束,如,

作者还提出,不同图像之间应存在一致性约束。对于两张图像,作者将这两张图像视为一个简单的视频,仅包含两个帧,因此作者可以通过关系一致性来约束该视频的传感器一致性。

 表示一个数据批次, 表示批次大小。作者将  和  称为 多尺度多传感器一致性监督

Adversarial Training

作者认为,来自子网络  的特征应尽可能少包含传感器特定的信息。受到  的启发,作者对子网络输出的特征进行传感器分类,并最大化分类损失。

假设特征通过特征提取网络获得,那么该网络分为两条路径来处理特征。一条路径经过图像重构网络进行图像重构,产生去噪输出。另一条路径经过传感器分类网络进行传感器分类。对于个传感器,模型作为类分类网络。在训练过程中,作者旨在最小化去噪重构损失,同时最大化不同传感器特征之间的混淆,以最大化传感器分类损失。对抗训练损失可以表示为:

是数据对,是对应的传感器标签。表示平衡超参数。为了实现端到端训练,作者遵循[21]的方法,引入了梯度反转层。

总结而言,最终的传感器一致性监督定义为

其中  分别为平衡权重。

5 Benchmark Experiments

在本节中,作者在作者的MSSIDD数据集上评估了多种代表性的去噪方法。作者还验证了设计的一致性监督可以提高传感器可传递性。

Experimental Setup

实现细节。由于大多数先前的图像去噪方法都是针对具有3个通道的RGB图像,因此这些方法无法直接在具有4个通道的原始图像上进行评估。作者重新实现了这些方法,并将它们的开源代码发布在GitHub平台上,将输入通道的维度从3个调整为4个,以适应原始域数据。为了进行公平的比较,所有方法都使用相同的实验设置进行训练。具体而言,作者在两个NVIDIA V100 GPU上使用标准的PSNR损失(使用AdamW [36]优化器)训练模型100K次,每次迭代使用每个GPU上的每个传感器的批量大小为2,总共的批量大小为2×Sensor_Num。初始学习率设置为,然后遵循余弦衰减到最小学习率。在训练过程中,作者随机裁剪图像块作为输入,大小为。平衡参数λ1,λ2,λ3分别设置为0.1,0.1,1.0。作者将α从0到1随训练迭代次数的增加而设置。在所有实验中,未采用其他数据增强策略。作者的实现已在Github上公开发布1。

性能比较。作者在MSSIDD基准测试上评估了几种最先进的算法。基于CNN的去噪方法,例如DnCNN [60],FFDNet [62],RIDNet [5],CycleISP [55],HINet [15],NAFNet [16],以及基于transformer的方法,例如Uformer [53],Restormer [58],用于比较。作者在提出的MSSIDD数据集上设计了两个评估设置,_Raw2Raw_和_Raw2RGB_。对于_Raw2Raw_设置,监督直接应用到原始域,即作者网络的输出。对于_Raw2RGB_设置,去噪的原始图像将通过ISP Pipeline  [11]转换到sRGB域,然后作者随后使用转换后的sRGB图像计算重构损失。作者将提出的监督集成到NAFNet和Restormer中,并分别推导出两个模型,命名为MS-NAFNet和MS-Restormer,其中'MS'表示多传感器一致性监督。

评价指标参考先前的研究[3, 44, 48],作者在原始图像和sRGB输出上报告峰值信噪比(PSNR)和结构相似性(SSIM)[52]作为评价指标。

Evaluation Results

定量评价。表1在Raw2Raw设置下,在提出的MSSIDD数据集的六个子任务上比较了不同的图像去噪方法。"传感器"表示从其他传感器转移到传感器的子任务,训练期间传感器的数据不可用。可以看出,MS-NAFNet和MS-Restormer在所有任务上都优于当前的图像去噪方法。在添加提出的多传感器一致性监督后,模型可以有效地学习传感器不变的表示,从而提高对新传感器的一般化能力。

可视化。 图6提供了在Raw2Raw设置下的定性可视化。作者的方法生成的去噪图像包含更多细粒度的细节,而 Baseline 方法在纹理丰富的区域产生模糊边缘或伪影。例如,在图6的最后一行,作者的模型可以愉快地恢复出文本的详细边缘,而两个 Baseline 方法无法清晰地恢复出文本。

Ablation Study

作者分析了在Raw2Raw设置下,传感器一致性监督对“传感器6”任务的影响,如图7(右)所示。第一行的配置没有监督。与基准相比,每个单个部分,即在PSNR和SSIM方面都能带来稳定的改进。作者可以观察到,这些监督的组合(第五行)实现了优越的性能,说明了它们的有效性和互补性。

图7也显示了在应用传感器一致性监督之前和之后,特征相似度矩阵在两个相关传感器平均特征之间的相关性。在添加传感器一致性监督后,这些传感器之间的相关性更为一致,表明其在促进特征跨传感器不变性方面的有效性。

Results on Real Sensor

通过反向变换,作者可以在不进行图像收集工作负载的情况下,使用sRGB生成原始图像。作者还通过使用真实相机的原始图像进行了实验,以进一步验证所提监督的有效性。作者使用了两个额外的相机,即索尼和佳能,以捕捉相同场景,并获得了每个传感器2000张原始图像。然后,作者根据传感器6的相机参数使用索尼sRGB图像进行反向变换,得到了三个领域,即传感器6、索尼和佳能。Raw2Raw的结果如图3所示。

6 Conclusion and Future Work

在本文中,作者提出了第一个用于多传感器图像去噪任务的原始域数据集MSSIDD。所提出的MSSIDD包括六个传感器,每个传感器的数据基于特定的相机传感器参数生成。

作者在这些相机传感器之间模拟白平衡、色彩校正、相机噪声等各个方面,并提供了可视化结果来展示它们之间的差异。作者倡导认为MSSIDD数据集可以作为评估去噪模型传感器传输性的标准基准。

作者还进一步引入了一种新颖的多传感器一致性方法,以促进传感器不变的表示。作者在作者的数据集上评估了之前的去噪技术,并进一步验证了作者的方法的有效性。

受限于空间,作者没有对其他去噪方法进行更多评估。

同时,作者认为在移动终端场景中,固定一些在现有传感器上训练的去噪模型中的一些参数,只在新传感器上训练一些可变参数也可以缓解内存限制。

这是一个有前景的方向,将在未来的工作中继续探索。

参考文献

[0]. MSSIDD: A Benchmark for Multi-Sensor Denoising.



最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。





Ai fighting
全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
 最新文章