“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
Rethinking Imbalance in Image Super-Resolution for Efficient Inference
做出了以下三个关键贡献:
(1)本文首次尝试探索图像超分辨率领域的不平衡问题,并从概率统计的角度给出了合理的分析,即数据分布和模型优化的不平衡限制了算法性能。
(2) 提出了一种基于 HES 和 BDLoss 的即插即用权重平衡框架 WBSR,以在不增加额外计算成本的情况下实现平衡训练,从而在不改变原始模型结构和训练数据的情况下提高模型的恢复效果和推理效率。
(3) 在各种模型、数据集和尺度因子上的大量实验表明,方法在计算成本更低的情况下,实现了与现有方法相当或更好的性能。
2背景
图像超分辨率 (SR) 旨在从低分辨率 (LR) 图像中重建具有更多细节的高分辨率 (HR) 图像。近年来,基于深度学习的图像 SR 方法通过更深的网络模型和大规模训练数据集在重建性能方面取得了显著进展,但这些改进对计算能力和内存资源提出了更高的要求,因此需要更有效的解决方案,各种技术如剪枝、量化、知识蒸馏以及轻量级架构设计,已被广泛研究以加速推理,并满足资源受限平台上部署推理的要求。然而,这些方法依赖于静态网络公平地处理所有输入样本,忽略了不同样本对网络计算成本的不同需求,这限制了模型的表示能力。
相比之下,基于动态神经网络的方法可以动态调整网络结构或参数,降低平均计算成本,近年来成为主流研究方向。这些方法可以根据输入样本的内容在推理过程中自适应地分配具有合适计算成本的网络。尽管这些动态网络解决方案取得了进展,但实际应用仍然受到两个普遍限制的阻碍:
数据分布不平衡。现有的 SR 方法主要使用均匀采样的 LR-HR 图块对来训练模型,而不是使用整张图像,这是由于内存资源的限制。然而,它们忽略了图像中图块内容存在不平衡分布这一基本事实(即,大量易于重建的平滑区域和稀少的难以重建的边缘纹理区域),导致固有的数据偏差。图 1 (a) 显示,容易平坦区域(48.8%)的数量比例远大于坚硬纹理区域(16.6%)。
模型优化不平衡。当前的超分辨率方法通常采用 L1 或 L2 损失函数来平等地对待所有图像块区域并优化每个权重,这缺乏对模型训练的合理优化。由于低分辨率图像中丢失的细节主要存在于边缘和纹理位置,因此模型在处理这些平滑图像块时需要更少的计算资源。因此,现有的超分辨率方法在平坦区域存在冗余计算,这会导致模型在简单区域过拟合,在复杂区域欠拟合,并导致模型计算资源分配不均匀,如图 1 (b) 所示。对于同一图像,优化的RCAN模型在平滑背景区域(绿色框,误差像素仅占0.08%)表现出过拟合,而在纹理前景区域(红色框,误差像素高达52%)表现出明显的欠拟合。
3 理论分析
其中 yˆ = fθ(x) 表示使用 SR 模型 fθ 从 LR x 估计的 SR 结果。θ 表示模型参数。pdata 表示数据分布空间。其目标是将整个数据集中预测图像与真实图像之间的所有绝对误差最小化。基于训练集分布不平衡而独立测试集平衡的自然假设 ,设定训练数据和测试数据分别来自不同的联合数据分布 ptrain(x, y) 和 pbal(x, y)。由于超分辨率任务中固定的下采样降级,条件概率 p(x|y) 在训练集和测试集中是相同的。
从概率的角度来看,SR 网络的预测 yˆ 被认为是噪声预测分布的均值,该分布可以建模为高斯分布。
其中 σnoise2 表示独立分布的误差项的方差。预测值 yˆ 可以被视为噪声预测分布的均值。等式 2 可以解释为等式 1 的分布形式,对应于预测分布回归中最大化的负对数似然 (NLL) 损失。因此,由 L1 训练的预测模型实际上捕获了整个解空间的均值,即训练集的分布。
定理 1(分布变换). 考虑到ptrain(y|x)和pbal(y|x)之间由于分布偏移导致的不一致。鉴于训练集和测试集具有相同的条件概率 p(x|y),利用贝叶斯规则 p(y|x) ∝ p(x|y) · p(y) 通过变量替换建立如下关系:
该定理表明,不平衡问题的存在源于ptrain(y|x)和ptrain(y)之间的正比关系,其比例为 pptrainbal((xx)) 当训练集中特定类型的补丁样本出现频率较低时,即ptrain(y)较低时,ptrain(y|x)的值也会下降,导致预测准确率下降。因此,训练后的超分辨率模型在预测时往往会低估稀有补丁的出现。同时,考虑到 ptrain(y|x) 的积分等于 1,可以得到
其中 Y 表示整个训练样本空间,将公式 3 代入公式 4,通过显式分布变换来建模两个分布之间的关系。
其中 y′ 表示积分变量。与之前专注于建模 ptrain(y|x) 的工作不同,本文的目标是估计 pbal(y|x) 以实现测试集上的平衡预测。上述理论证明了由不平衡数据分布和损失函数引起的不平衡模型优化是合理的。因此本文的方法旨在纠正这种不平衡,而无需引入额外的数据集或计算成本。
4 方法
样本级采样是指从训练数据集中均匀采样补丁。在训练阶段,每个样本以相等的概率被采样,其概率为 Pi = N1 。 i 表示第 i 个样本。 N 表示训练补丁样本的总数。它确保模型在训练初期学习到稳定的初始权重,从而捕获不同样本类型中的通用特征。
类级别采样旨在为稀有困难样本分配更高的采样概率。与类别数量确定的图像分类任务不同,图像超分辨率中的样本未分类且数量未知。为了解决这个问题,在线计算梯度向量,该向量包含输入样本在水平和垂直方向上的梯度幅度的均值和标准差,从而评估样本的重建难度,然后使用向量阈值t对样本进行分类,以获得采样概率。第 k 类别的阈值定义如下:
其中 K 表示类别数。t1 和 tK 分别表示最简单和最难类别的梯度阈值。第 k 个类别的样本数对应于梯度向量落在 tk−1 到 tk 范围内的 Nk 个样本。采样可能性 Pk 可以通过以下公式计算:
其中 δ ∈ (0, 1) 表示指数因子,用于通过减少样本数量来避免对简单数据的过度拟合。它使采样的批次训练数据包含来自困难类别的样本,从而实现均衡的数据采样。
所提出的分层均衡采样策略的核心概念是解决由固有失衡引起的数据偏差,即困难样本在视觉上比平滑样本更重要。在训练和测试期间,可以使用现有的梯度算子快速导出图像块的梯度向量。因此HES方法不会增加任何额外的计算负担,并有效地利用数据集信息来增强模型对难样本的特征表示能力。
4.1.2 平衡多样性损失
其中 log ptrain(y) 是可以省略的常数项。第一个剩余项是 L1 损失的概率形式,如公式 2 所示。log RY N (y′; yˆ, σnoise2 I) · ptrain(y′)dy′ 的最后一项表示服从高斯分布的关键多样性平衡项,它涉及积分运算,需要找到一个封闭形式的表达式。
基于先前分类任务的设计,利用高斯混合模型 (GMM) 技术来表示常数项。
其中 L 表示高斯分量的数量。ϕ、µ、σ 分别表示多维 GMM 的权重、均值和协方差。由于两个高斯函数的乘积会得到另一个非归一化的高斯函数,因此多样性平衡项可以表示为
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!