TPAMI 2024 | 通过满意机器比率建模的机器感知视频编码

文摘   2024-11-13 19:00   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Perceptual Video Coding for Machines via Satisfied Machine Ratio Modeling

通过满意机器比率建模的机器感知视频编码

作者:Qi Zhang; Shanshe Wang; Xinfeng Zhang; Chuanmin Jia; Zhao Wang; Siwei Ma; Wen Gao

源码链接:https://github.com/ywwynm/SMR

论文创新点

  1. SMR新度量:提出了Satisfied Machine Ratio(SMR),一个衡量机器对压缩图像满意度的新指标。
  2. 大规模SMR数据集:构建了大规模SMR数据集,促进了机器视觉领域的研究。
  3. SMR预测模型:开发了基于深度学习的SMR预测模型,显著提升了机器视觉压缩性能。

摘要

机器视觉(Machine Vision)领域的视频编码(Video Coding for Machines, VCM)旨在压缩视觉信号以供机器分析。然而,现有方法仅考虑了少数机器,忽视了大多数。此外,机器的感知特性未能有效利用,导致压缩效率次优。为了克服这些限制,本文引入了满意机器比率(Satisfied Machine Ratio, SMR),这是一种通过聚合机器对压缩图像和视频的感知质量的满意度评分来统计评估的度量。每个评分都是基于机器对原始和压缩图像之间感知差异的衍生。针对图像分类和目标检测任务,我们构建了两个代表性的机器库进行SMR注释,并创建了一个大规模的SMR数据集以促进SMR研究。然后,我们提出了一个基于深度特征差异和SMR之间相关性的SMR预测模型。此外,我们引入了一个辅助任务,通过预测两个不同质量图像之间的SMR差异来提高预测精度。广泛的实验表明,SMR模型显著提高了机器的压缩性能,并在未见过的机器、编解码器、数据集和帧类型上展现了强大的泛化能力。代码可在 https://github.com/ywwynm/SMR 上找到。

关键字

  • 机器视觉视频编码
  • 感知编码
  • 可察觉差异
  • 满意用户比率

I. 引言

近年来,智能机器的使用激增,许多机器被设计用于分析和理解视觉数据,如图像和视频。在过去的十年中,包括卷积神经网络[1]、深度学习[2]、残差块[3]、知识蒸馏[4]、网络架构搜索[5]、注意力机制[6]、自监督学习[7]等在内的AI技术的进步,显著提高了机器视觉系统(Machine Vision Systems, MVS)的能力和效率。目前,机器在各种视觉分析任务[8]、[9]中的性能已超过人类,并在多种应用中得到越来越多的采用。
像人类寻求高质量图像以获得视觉满足一样,机器依赖高质量的视觉数据进行准确分析。这种需求通常在训练阶段得到满足,机器从高质量的图像数据集(如ImageNet[10]和Microsoft COCO[11])中学习。然而,在现实世界场景中,图像质量可能因模糊、噪声、亮度不佳等而受损,这对机器提取视觉分析的准确特征构成挑战[12]。最常见的失真是压缩伪影,因为图像和视频需要被压缩以减少传输和存储成本。一些研究[13]、[14]揭示了压缩可以显著降低不同机器和任务的准确性,特别是在低比特率下。因此,图像和视频编码面临着一个巨大挑战,即确保在不同应用中,压缩质量变化以满足现实世界需求时,机器的有效性和可靠性。
在过去的几十年中,图像和视频编码标准,如JPEG[15]、AVC[16]、HEVC[17]、VVC[18]和AVS3[19],极大地提高了压缩效率。新兴的神经编解码器[20]也提供了新颖且令人鼓舞的解决方案。然而,它们主要针对人类视觉系统(HVS)进行优化,以在可比的比特率下增强视觉保真度和质量。最近,一些针对MVS的压缩方法被探索以填补这一空白。一些工作提出了修改现有编解码器,例如改进参数选择[21]、[22]、率失真优化[23]、[24]和比特分配[25]、[26]模块。另一种趋势是训练端到端的压缩网络,以针对MVS的任务特定优化目标[27]–[29]。与这些探索一致,标准化进程也已由MPEG开始,即机器视觉的视频编码(VCM)[30],旨在为推进MVS导向的编码技术建立一个有希望的平台,并促进各种领域中机器视觉应用的部署。
然而,现有的MVS导向压缩方法存在两个显著缺点。首先,它们的设计和评估只考虑了有限的机器,因此缺乏泛化能力。例如,在MPEG VCM标准化[31]期间的通用测试条件(CTC)仅使用每个任务的单一机器来评估压缩性能,这在评估中引入了固有的偏见,使结果更主观(仅针对特定机器准确)而不是客观(对大多数机器泛化足够)。这种偏见在现实世界中变得更加问题重重,因为在压缩期间机器信息不可用,或者由于多样化的应用需求,机器被更新或替换。其次,MVS特性被低估,特别是机器在区分好坏压缩质量方面的感知特性,限制了压缩性能。这种压缩效率低下导致在传输、存储和处理输入视觉数据时增加了额外成本,这在AI时代由于数据量巨大和应用无处不在而变得越来越成问题。
重新审视面向HVS的压缩方法,感知编码是解决这些缺点的有价值参考。具体来说,HVS在感知图像质量差异方面存在固有的局限性,只有在超过某个阈值时才能感知到[32]。这些特性引入了感知冗余,可以在压缩期间被移除。为此,引入了刚刚可察觉差异或刚刚可察觉失真(JND)的概念[33]并进行了建模[34]–[38]。JND识别了HVS能感知到的最小压缩质量降低,这可以用来确定合适的压缩操作点。由于人类个体的视觉敏锐度不同,JND进一步扩展到满意用户比率(SUR)[39]–[42]。SUR是从大量人类受试者获得的JND位置的累积分布中派生出来的。因此,它以更泛化的方式测量图像质量。与单一的JND点不同,SUR形成了一个连续的确定性模型,为压缩提供了多个操作点,提高了其多功能性和适用性。
JND和SUR成功地模拟了HVS行为,使得面向HVS的感知编码成为可能。最近,一些研究表明机器也存在JND[14]、[43]、[44],并强调了其在面向MVS的感知编码中的潜力。然而,同时统一MVS的压缩性能和泛化性,以实用的方式仍然是一个极其重要的问题。在这项工作中,我们首次尝试研究机器的SUR,以应对这一挑战。我们的贡献如下。
  • 我们通过两项先导研究展示了在VCM中涉及多样化机器的必要性。第一项研究表明,不同机器对相同压缩质量的图像有不同的感知。第二项研究表明,针对一台机器优化编码器可能会降低另一台机器的性能。据我们所知,我们是第一个全面解决VCM中机器多样性问题的人。
  • 我们提出了一个新概念,满意机器比率(SMR),以模拟VCM的一般MVS特性。SMR定义为对压缩图像或视频帧的满意度评分高于合理阈值的机器的比例。每个满意度评分都是基于机器对原始和压缩图像的感知差异来计算的。据我们所知,我们是第一个探索机器的SUR。
  • 我们在两个基本的机器视觉任务上研究SMR:图像分类和目标检测。我们构建了两个代表性的机器库来分析MVS行为,分别为每个任务包含多达72和98种不同的机器。利用这些机器进行SMR注释,我们创建了一个包含超过2700万张图像、37个压缩质量水平和超过5.93亿个真实标签的大规模SMR数据集。该数据集促进了进一步的SMR研究。
  • 我们分析了SMR数据集,以揭示图像级别上的MVS特性和数据集级别的聚合特性。我们发现,面对压缩质量降低时,MVS在许多图像上表现出独特的JND特性,与HVS的模式不同。我们还发现,SMR和SUR有实质性差异,突出了机器与人类在感知特性上的不同。
  • 我们提出了SMR建模任务。我们发现深度特征差异和SMR之间存在非线性负相关性。利用这种相关性,我们设计了一个全参考SMR预测模型来预测任何图像或视频帧的SMR。该模型为SMR预测和SMR引导的编码优化任务提供了一个坚实的基线。此外,我们引入了一个辅助任务,预测两个不同压缩质量图像之间的SMR差异,充分利用所有标记数据并提高SMR预测精度。
  • 我们进行了广泛的实验,验证了我们提出的SMR模型在预测SMR和提高机器压缩性能方面的有效性。我们通过使用预测的SMR作为编解码器的优化目标,实现了显著的编码增益。至关重要的是,我们的SMR模型在未见过的机器、编解码器、数据集和帧类型上具有很强的泛化能力。这些评估为未来在这方面的工作建立了一个可靠的基准。
除了这些贡献,我们认为,SMR背后的核心思想,即考虑许多不同的机器而不是一个或几个特定机器,可以惠及其他机器视觉和图像处理领域,包括图像和视频质量评估和增强、对抗性攻击、隐私保护的视觉分析等。
本文的其余部分安排如下。第II节介绍几项相关工作。第III节揭示了机器多样性及其对现有编解码器可能产生的负面影响。第IV节提出了SMR的概念,并详细定义了它。随后,专注于两个基本视觉任务,我们构建了两个机器库进行SMR注释,并在第V节构建了一个大规模的SMR数据集。在第VI节,提出了两个基于深度学习型的SMR模型用于SMR预测。第VII节展示了评估SMR模型性能和泛化能力的实验结果。最后,第VIII节总结了本文。

III. 机器多样性

我们首先通过两个实验来研究机器多样性。我们仔细选择了12台不同的机器进行这些研究,它们是VGG-19[70]、ResNet-50、ResNet-101[3]、ResNeXt-101[71]、DenseNet-161[72]、MobileNet-v3Large[73]、EfficientNet-B0、EfficientNet-B4[74]、Vision Transformer-B/16[6]、ConvNeXt-Base[75]、Swin-T和Swin-B[76]。这些机器不仅在它们的宏观架构上有所不同,如CNN与变换器,还在它们的内部模块(VGG与DenseNet)、大小或复杂性(MobileNet与其他)、深度(ResNet-50与ResNet101)、整体规模(EfficientNet-B0与EfficientNet-B4)以及“现代化”程度[75](ResNet-50与ConvNeXtBase)上有所不同。鉴于它们在各种视觉任务和现实世界应用中的广泛使用,这些机器为全面检查多样性提供了坚实的基础。
在第一个实验中,我们通过比较它们在相同压缩质量下的感知来证明不同机器具有不同的MVS特性。我们使用HM-16.24[77],HEVC的参考软件,压缩MS COCO[11]的val2017数据集中的图像。每个图像被压缩为一个内视频帧。通过调整压缩的量化参数(QP)产生不同的质量水平。具体来说,选择了20个QP,即32、33、...和51,其中较高的QP表示更差的质量。在这个实验中使用相对较高的QP,因为较低的QP通常产生的失真对于MVS来说通常是微不足道的[13]、[14]。
我们从COCO图像中随机裁剪了10,000个带有真实边界框的对象,并获得了所选机器对它们的看法。最初,所有机器都从PyTorch[78]获得权重,这些权重在ImageNet上进行训练,然后使用原始的COCO train2017数据集上的对象图像进行微调,以与COCO语义对齐。由于机器是为图像内容分析而创建的,它们的看法等同于分析结果。因此,对于每个机器Mm和每个对象图像Ii,我们记录了在21个质量水平(即通过20个QP压缩加上未压缩的一个)上的top-1预测(即具有最高概率的类别)。这些看法被表示为Mm(I32_i)、Mm(I33_i)、...、Mm(I51_i)和Mm(I0_i)。然后我们使用以下公式计算机器Mm对Ii在压缩质量qk上的看法一致性标签:
当标签为1时,机器对压缩图像的看法与未压缩版本保持不变,表明压缩没有影响。否则,压缩对机器有重大影响。对于机器Mm,我们生成了对象图像Ii在所有压缩质量水平上的机器看法一致性标签序列,表示为Seq(Mm; Ii) = [L(Mm; I32_i), L(Mm; I33_i), ..., L(Mm; I51_i)]。最后,我们计算一对机器Mm、Mn在Ii上的多样性得分:
其中HD(·)返回两个序列的汉明距离。因此,两个机器之间的高多样性得分意味着它们对同一图像的相同压缩质量的看法显著不同。
图1显示了所选机器对之间多样性得分的结果,这些结果是从10,000个对象图像中平均三次得到的。每次,对象都被重新选择。轴上的数字对应于不同机器的索引,这些索引与本节第一段中它们的出现顺序相同。所有机器对的平均整体多样性得分为3.98,标准差为0.33,表明机器的看法在所有20个压缩质量水平中的19.9%中有所不同。在特定的机器对中,最高的三个多样性得分观察到的是DenseNet-161和EfficientNet-B4之间(4.55)、VGG-19和EfficientNet-B4之间(4.52)以及VGG-19和Vision Transformer-B/16之间(4.51)。相反,最低的得分发现在Swin-T和Swin-B之间(2.82)、ConvNeXt-Base和Swin-B之间(3.17)以及ConvNeXt-Base和Swin-T之间(3.28)。值得注意的是,机器多样性始终不可忽略,即使是在具有相同宏观架构但在深度或整体规模上有所不同的机器之间,例如ResNet-50和ResNet-101(3.84)或EfficientNet-B0和EfficientNet-B4(4.06)。此外,机器多样性通常存在于大多数图像上。具体来说,当考虑所有机器对时,让PI代表至少PM机器对的Sdiv > 0的图像比例,那么当PM = [1(1.5%), 33(50%), 50(75%), 59(90%)]时,PI = [91.65%, 82.90%, 76.98%, 65.54%]。

这种多样性如何影响VCM?我们证明,针对一台机器优化的VCM编解码器可能对另一台机器无效甚至有害。在这项研究中,我们将编解码器视为一个黑盒,随机修改编码配置,并检查这些修改是否对不同机器的看法产生一致的变化。具体来说,对于对象图像Ii,我们首先选择一个随机QP在[32, 51]中,即qbase,并为机器Mm获得机器看法一致性标签Lbase_m = L(Mm; Iqbase_i)。接下来,我们通过在qbase上加或减一个[1, 5]中的值来随机修改qbase,得到修改后的QP作为qmod并记录新标签Lmod_m。如果qmod超出QP边界,则将其调整回[32, 51]。还确保qmod ≠ qbase。最后,我们比较一对机器(Mm, Mn)的标签变化,即ΔLm = Lmod_m - Lbase_m和ΔLn = Lmod_n - Lbase_n。如果ΔLm = ΔLn,则认为修改是令人满意的,因为机器的看法在同一方向上受到影响。否则,我们考虑以下情况(注意ΔLm/n中的m/n意味着m或n,Lbase_n/m和Lmod_n/m中的n/m意味着n或m,它们的顺序是对应和有意的):
  1. : 不令人满意,因为一台机器的看法得到改善,而另一台恶化,即针对一台机器的编解码器优化导致另一台机器的性能变差。
  2. : 不相关,因为一台机器的看法保持不一致,而另一台甚至恶化,即编解码器修改对两台机器都不是优化,这应该从本讨论中排除。
  3. : 当qmod > qbase时不令人满意,因为一台机器的看法在比特率降低后仍然一致,而另一台恶化,即针对一台机器的编解码器优化导致另一台机器的性能变差。但如果qmod < qbase,则无关,因为修改对两台机器都不是优化,这应该从本讨论中排除。
  4. : 不令人满意,因为一台机器的看法得到改善,而另一台保持不一致,即针对一台机器的编解码器优化对另一台机器无效。
  5. : 令人满意,因为一台机器的看法得到改善,而另一台保持一致。
为了使调查更可靠,我们也随机选择了10,000个对象图像,并重复实验三次。对于每次修改,我们记录所有66对机器中不令人满意情况的比例Puns。然后,如果Puns ≥ TPuns,其中TPuns是以百分比表示的阈值,则认为修改本身是不令人满意的。不同TPuns值下不令人满意的修改比例(记为Quns)如图2所示。由于机器多样性,针对一台机器优化的编解码器修改很容易为另一台机器带来不令人满意的结果。具体来说,当TPuns = 1%时,高达46.45%的修改是不令人满意的。在更实际的场景中,当TPuns = 20%时,23.32%的修改是不令人满意的。随着TPuns的增加,Quns如预期那样减少,因为也有很多令人满意的修改。在所有修改中,不令人满意的案例1、3和4的发生频率分别为22.19%、21.51%和32.01%,表明它们的发生没有显著差异。总之,我们应该在VCM中仔细考虑机器多样性。

IV. 满意机器比率

为了妥善解决VCM中的机器多样性问题,并促进MVS导向的感知编码,我们提出了SMR的概念。SMR的定义如下。设I0是原始图像或视频帧,被压缩成几个失真变体Iq1、Iq2、...、Iqn,其中qi表示特定质量,随着i的增加而降低。机器库M中的每个机器Mj为Iqi分配一个满意度分数,表示为S(Mj; Iqi),稍后将详细描述。然后,Iqi的SMR计算为:
其中TS是满意度分数的阈值,| · |计算集合中元素的数量。因此,SMR统计量化了对图像压缩质量满意的机器的比例。在SMR计算期间,TS控制判断机器感知一致性的严格程度。高的TS表示只有当机器的感知在原始和压缩图像之间非常相似时,机器才对压缩质量感到满意,通常表示高分析精度。相反,低TS允许更大的机器感知变化。不同机器视觉任务的满意度分数计算因它们独特的目标和评估指标而异。在这项研究中,我们关注两个基本任务的SMR:图像分类和目标检测。对于图像分类,满意度分数函数定义类似于第III节的方程(1),但更灵活:
其中Mj(Iqi)是Mj给定Iqi作为输入时每个类别的输出概率,Top-1(·)和Top-K(·)分别返回具有最高概率值的类别索引。在第IV节中使用方程(4)计算图像分类的SMR时,TS = 1。因此,图像分类的SMR表示原始和压缩图像上机器类别预测一致的比例。目标检测的满意度分数函数更复杂,考虑了各种性能评估因素,如检测到的边界框与真实边界框之间的交并比(IOU)、检测对象的类别置信度以及评估中允许的检测数量。平均精度均值(mAP)是这项任务的实际度量,它结合了这些因素。因此,我们使用mAP度量定义目标检测的满意度分数函数如下:
其中TIOU是计算mAP时的IOU阈值,FTconf(·)是一个过滤函数,返回具有高于Tconf的类别置信度的检测。这里,T表示这些阈值的集合,即T = {TIOU, Tconf}。因此,目标检测的SMR表示具有高于合理阈值的mAP的机器的比例。在计算满意度分数时,我们不使用人类注释。相反,原始图像上的感知被用作真实情况,鉴于原始和压缩图像之间的感知差异本质上暴露了MVS特性[14]、[43]、[79]。这种方法允许使用大量图像和视频以无监督或自监督的方式研究SMR。然而,这种方案在评估机器的能力和VCM中的编码效率时可能会引入一些性能差距[79]。这在目标检测中尤为明显,由于机器的设计原则,机器倾向于生成过多的、通常不可靠的检测(许多置信度分数很低)。
利用所有从原始图像中的检测而无过滤会导致这些冗余和不可靠的检测成为僵硬的基准,这会显著干扰压缩图像上检测的复杂mAP计算。为了减轻这一点,我们引入了一个可定制的FTconf,以在满意度分数计算期间选择性地排除原始图像上的不适当检测。通过聚合许多机器的满意度分数,SMR缓解了来自一些特定机器的感知偏见,并准确测量了压缩质量,同时考虑了一般MVS特性。具有较高SMR的图像和视频更有利于机器视觉应用,因为它们更有可能为大多数机器产生正确的分析结果。当压缩前未知机器,或从长远来看机器可以升级或替换时,SMR的重要性进一步凸显,这在现实世界中很常见。更重要的是,SMR可以指导压缩以去除MVS的感知冗余,并为大多数机器保留原始和压缩图像上的一致机器感知,实现压缩效率、泛化能力和机器分析性能之间的理想平衡。因此,SMR是VCM更合适的优化目标,并为MVS的感知编码提供了动力。

V. SMR数据集

在本节中,我们构建了第一个SMR数据集以促进SMR研究。有三个步骤:图像准备、机器库构建和SMR注释。

A. 图像准备

为了构建一个好的SMR数据集,需要大量不同语义的高质量图像。由于这些图像用于根据机器感知差异计算满意度分数,因此合理地利用现有的、成熟的机器视觉任务数据集。为此,我们选择了MS COCO 2017数据集。与第III节类似,我们使用HM-16.24将所有COCO图像压缩为内视频帧。为了覆盖广泛的质量水平,我们选择了36个QP,即11、13、15、17、19、21、22、...和51。

B. 机器库构建

为了得出实际适用和精确的SMR,我们需要为满意度分数的计算和聚合构建一个代表性的机器库M。构建M时需要考虑几个因素,如机器的能力、架构、大小、复杂性以及包含的机器数量。机器的能力是最重要的属性,直接决定了任务的准确性。然而,不应将库限制为只有表现最好的机器,因为许多能力较差的机器提供了独特的优势,并适合特定的应用场景。例如,一些结构更简单的机器更容易实现,并可以用硬件加速。一些参数更少的机器更适合内存和计算复杂性严格的环境。一些其他的机器可以快速运行,满足实时处理需求。此外,许多机器由于历史原因已经被广泛使用,并且替换成本高昂。最后,机器的数量应该足够以减轻来自一些机器的感知偏见。总之,如第III节所示,机器多样性应该被仔细考虑在库的构建中,以更全面和准确地捕捉一般MVS特性。
在这项工作中,我们仔细审查了机器视觉社区的演变和当前状况,并选择了几个代表性的机器来构建机器库。对于图像分类,我们最初收集了58台机器来构建v1机器库。然后,为了探索不同数量的机器对SMR分布和预测的影响(将在第V-D节和第VII-D至VII-F节中讨论),我们进一步增加了14台机器来构建v2库,总共包含72台机器。这些机器的详细信息见附录中的表I。所选机器在ImageNet上的top-1预测准确率(从60%到88%)、大小(从1.4到3亿参数)和复杂性(从0.1到360 GFLOPs)方面显示出广泛的范围。包括最新的变换器和旧的CNN、复杂和轻量级的机器、手工制作和自动搜索的机器。我们还考虑了具有不同深度或规模的相同架构的机器。所有机器都使用PyTorch[78]的权重初始化,并在原始的COCO train2017数据集上使用裁剪的对象图像进行微调,以与COCO语义对齐。

对于目标检测,我们构建了一个包含98台机器的机器库,以适应该领域的快速发展。这些机器的详细信息见附录中的表II。它们在COCO val2017数据集上的mAP从21.3到55.1不等,大小从1.8到2亿参数不等,推理速度从不到1帧每秒(fps)到1000 fps不等。包括基于CNN和基于变换器的、一阶段和两阶段的、针对性能和速度的机器。我们还包括了配备不同主干网络的相同检测器的变化。所有机器都使用MMDetection[80]的权重初始化,并在原始的COCO train2017数据集上进行训练。

尽管种类繁多,但与大多数面向HVS的JND和SUR数据集相比,构建的库中的机器数量明显更多,如VideoSet[39](每个视频大约30个人类受试者)或KonJND-1k[81](每张图像42个受试者)。我们认为,从实际角度来看,用这个库来研究SMR是足够的。注意,考虑较少的机器可能会带来几个负面影响,这将在第V-D节中描述。

C. SMR注释

由于COCO测试数据集缺乏注释,我们随机选择了10,000张来自COCO train2017数据集的原始图像来形成我们的SMR测试数据集,同时保留现有的验证集。压缩后,每个原始COCO图像或对象图像产生36个失真版本。我们应用方程(4)到(6)为所有图像(包括原始图像)生成SMR标签。对于图像分类,SMR标签注释在大于32×32像素的对象图像上。我们在方程(5)中设置K = 1、3、5,并分别使用两个版本的机器库进行注释,得到六种类型的SMR,即SMR-top1/3/5-v1/v2。对于目标检测,SMR标签注释在完整图像上。我们在方程(6)中设置TIOU为[0.5 : 0.05 : 0.95](即值从0.5到0.95,步长为0.05),Tconf为0.3,并在方程(4)中设置TS为[0.5 : 0.05 : 0.95],得到100种SMR类型。最终,对于图像分类,构建的SMR数据集包含617,479×(36+1) = 22,846,723张图像和超过1.37亿个SMR标签。其中有20,052,335张图像用于训练,936,396张图像用于验证,1,857,992张图像用于测试。对于目标检测,构建的SMR数据集包含123,287×(36+1) = 4,561,619张图像和超过4.56亿个SMR标签。其中有4,006,619张图像用于训练,185,000张图像用于验证,370,000张图像用于测试。我们的SMR数据集可以为这项工作和未来的SMR研究建立一个坚实的基础。

D. 数据集研究

我们在图3中绘制了几个随机选择图像的QP-SMR曲线,以给出SMR曲线外观的第一印象。很明显,不同的图像有不同的QP-SMR曲线,因此图像的SMR是一个与内容相关的属性。我们数据集中SMR的分布,即不同QP下的平均SMR值,如图4所示。个别的QP-SMR曲线和整体的SMR分布再次强调了机器多样性的普遍性,因为如果机器具有相同的MVS特性,SMR将一致地为0(没有机器对压缩质量感到满意)或1(每台机器都满意),这与事实相反。

通常,随着QP的增加,SMR趋于下降,但不同QP之间的变化幅度不同。对于较低的QP,SMR通常略有下降,而在较高的QP时,SMR往往显著下降并变得不可使用。有趣的是,即使在相邻的QP之间,SMR也可能有显著变化,表明QP和SMR之间没有单调相关性。换句话说,更高的QP有时可能导致更高的SMR,意味着较低的压缩质量可能导致更多机器的一致感知。这一观察对于两个原因具有重要意义。首先,许多机器在面对压缩失真时表现出类似的感知不稳定性。预计一个特定的机器可能存在无法准确区分好坏压缩质量的缺陷。然而,当许多机器一起考虑时,这种不确定性预计将被消除,但事实并非如此。其次,它揭示了在更重的压缩下实现更高SMR是可行的,这对于VCM来说是理想的,因为可以在类似的比特率下同时实现更低的比特率和更多机器的更高分析性能。
不同类型的SMR的特性和分布是不同的。对于图像分类,对于给定的QP,SMR-top5 ≥ SMR-top3 ≥ SMR-top1。对于目标检测,SMR由TIOU和TS共同控制,TS通常影响更大。此外,SMR变化的趋势也因SMR类型而异。例如,SMR-top5(Iqi) > SMR-top5(Iqj)并不一定导致SMR-top1(Iqi) > SMR-top1(Iqj)。
在比较图像分类的v1和v2机器库时,我们发现它们的SMR值相对相似。具体来说,在SMR数据集中(不包括未压缩的图像),SMR-top1/3/5在v1和v2库之间的平均绝对误差(MAE)分别为0.011、0.007和0.005,标准差分别为0.024、0.016和0.014。考虑特定图像,也可以从图3-4中观察到,两个库之间的SMR值非常接近。尽管存在轻微的数值差异,SMR变化的总体趋势仍然大体一致。我们进一步对不同数量的机器派生的SMR进行了比较分析。在这项研究中,我们从v2库中随机选取机器来重新计算SMRtop1值,记为SMRNm,其中Nm代表机器的数量。我们还研究了一个特殊情况,使用第III节中的12台机器。我们计算了10,000组随机选择的压缩图像的SMRNm值的平均MAE,每组图像在所有36个质量水平上都进行了选择。对于每个Nm,比较将进行三次以获得平均结果,结果如表I所示。结果表明,随着Nm的增加,MAE(SMRNm, SMR58/72)减小,尽管仍然存在轻微差异。较小的Nm值不可避免地导致由于机器多样性而无法准确捕捉一般MVS特性。再次证明,我们不能在VCM中只考虑一台或极少数机器。

E. SMR与JND

在SMR计算期间,满意度分数函数决定了机器是否对压缩质量感到满意,这基于原始和压缩图像之间的感知差异。这些函数似乎能够定位MVS的JND关于QP:对于机器Mm和原始图像Ii,JND预期位于最小的QP qmin,其中S(Mm; Iqmin) < TS。同时,对于任何更高的QP qx > qmin,S(Mm; Iqx) < TS应该始终成立。然而,我们发现对于许多机器在许多图像上,事实并非如此。
为了更全面地研究MVS的JND特性,我们利用了第III节中的机器感知一致性序列。机器JND存在的关键指标是其感知一致性(PC)序列中恰好有一个“10”且没有“01”。我们记录了v1机器库中所有58台机器在SMR验证数据集上的这种序列,计算了“10”和“01”的出现次数。我们根据top1/5预测基于方程(5)计算PC,并使用所有36个QP。我们的分析显示,所有机器和图像的平均PC变化数(记为Nvar)为top1/5基础PC计算的3.68/1.81。我们进一步评估了至少k1机器在Nvar ≥ k2的图像比例。结果如表II所示,第一列列出了k1值和相应的机器比例,第一行列出了k2值。每个表单元显示了基于top1/5基础PC计算的两个比例值。在大多数图像(约96%/86%)上,至少有一台机器有2个或更多的PC变化,表明没有JND。在大约70%/41%的图像上,Nvar ≥ 2满足50%的机器。因此,机器在许多图像上没有JND是常见的,当图像质量因压缩而恶化时。同时,在超过51%/20%的图像上,30%的机器有5个或更多的PC变化,表明在不同的压缩质量水平上,各种机器之间频繁的PC变化是常见的。
我们进一步关注两个特殊情况:至少一台机器对所有36个压缩图像的感知是1)完全一致的,2)与原始图像的感知完全不同。从结果来看,63.51%/19.18%的图像在top1基础上落入情况1/2,而在top5基础上分别为93.65%/0.44%。此外,在2.79%/10.77%的图像上,所有机器在top1/5基础上满足情况1。然而,没有任何图像能让所有机器满足情况2。这一观察特别引人注目,尤其是与HVS的JND相比,因为HVS总是可以在较低QP时忽略微小的质量差异,并在较高QP时感知显著差异。因此,在特定图像上,几台机器表现出对压缩质量降低的要么高度抵抗要么易损,这两者都导致了JND的缺失。
请注意,HVS可以有多个JNDs[39]、[65]、[67],但只有第一个JND是通过使用原始图像作为参考来确定的,随后的JND是参考前一个JND图像。相比之下,我们揭示了MVS可以通过一致地参考原始图像而有多个PC变化。此外,我们的结论并不与探索MVS JND的先驱工作[14]、[43]、[44]相矛盾。原因是它们主要考虑了MVS的最小可察觉失真,但忽略了对更重失真的容忍。相比之下,我们考虑了整个QP范围,提供了更全面的观点。重要的是,MVS的JND存在与否不会影响SMR,因为SMR是独立于JND定义的。

F. SMR与SUR

我们进行了一个简单的实验来阐明SMR和SUR之间的差异。具体来说,我们使用v1机器库在大规模JND/SUR数据集KonJND-1k[81]上注释图像分类的SMR。由于该数据集缺乏对象注释,我们将原始图像裁剪成均匀大小的224×224像素的补丁,并为每个补丁注释SMR。得到的QP-SMR/SUR曲线如图5所示,清楚地表明SMR和SUR之间的分布不同。值得注意的是,SUR在非常低的QP时达到1.0,而并非所有类型的SMR都达到这个水平,表明HVS对微小压缩失真的更大稳定性。相反,在更高的QP时,SUR下降到0.0,而所有类型的SMR都没有,突出了MVS对重压缩失真的偏好鲁棒性。此外,SUR的下降速度比SMR快,表明HVS对质量降低更敏感,特别是在中范围QP。另一方面,SMR显示出更渐进和稳定下降。

VI. SMR建模

SMR是VCM中评估大多数机器在不同压缩质量水平下的机器感知一致性的有价值图像质量度量。这种评估有助于改进VCM编码器,通过识别最有效的编码参数来去除MVS的感知冗余,实现相似比特率下的更高SMR值。然而,在实际场景中,从库中的每台机器收集满意度分数,并准确地将它们聚合成SMR过于耗时和资源密集。因此,使用更简单的模型预测图像或视频帧的SMR至关重要。在这项工作中,我们提出了SMR预测或SMR建模的任务,其表述如下:对于压缩质量水平qi下的图像Iqi,作为原始图像I0的失真变体,目标是开发一个模型Gθ,使得
其中θ代表模型的可学习参数,I是输入图像的集合,可以是I = {Iqi, I0}或I = {Iqi}。这种表述引出了两种变体的SMR建模任务:全参考和无参考SMR建模,其中“参考”是原始图像I0。在这项工作中,我们对全参考SMR建模进行了初步尝试。由于SMR是一个在[0, 1]范围内的连续小数值,SMR建模可以被视为一个回归任务。认识到SMR的内容特定性质,我们提出了一个基于深度学习的数据驱动方法,独立预测任何图像或视频帧的SMR。具体来说,我们的SMR模型由两个组件组成:编码器E(·)和回归器R(·)。编码器E(·)将输入图像x ∈ R^3×H×W编码成潜在表示h ∈ Rd,其中H和W分别是图像的高度和宽度,d是h的维度数。然后,回归器R(·)将原始和压缩图像的这些表示作为输入,并输出压缩图像的估计SMR。我们方法的关键在于学习一个可区分和鲁棒的表示,能够预测不同压缩质量水平下机器感知的相似性。鉴于机器通过提取高级语义特征来感知和分析图像,合理假设深度特征可以作为这项任务的良好表示,并与SMR值强烈相关。为了测试这一假设,我们首先使用v1机器库中的每台机器从图像I0和所有压缩变体中提取深度特征。然后,对于每个压缩质量水平,我们计算原始和压缩特征之间的余弦距离作为特征差异,这些差异将在所有机器中平均。之后,我们检查平均特征差异和SMR之间的相关性。如图6中的几个样本所示,其中曲线作为参考进行了三次拟合,验证了这两个变量之间一致的非线性负相关性。这一观察结果验证了我们的前提,即深度特征适合于SMR建模。

基于调查,我们提出了一个简单但有效的基线模型G用于SMR预测任务,如图7所示。模型的编码器E(·)是一个用于机器视觉任务的孪生神经网络,如图像分类,但去除了全连接(FC)层。这个编码器从I0和Iqi中提取特征,生成相应的潜在表示h0和hqi。然后我们将h0和hqi连接起来创建一个嵌入h+ ∈ R^2d,隐含地包含特征差异信息。最后,这个组合嵌入h+被输入到回归器R(·)中,它被设计为一个多层感知器(MLP)网络。MLP的任务是学习特征差异和SMR之间的非线性关系。训练目标是最小化预测和实际SMR值之间的L1距离:
基线SMR预测模型G的一个重要限制是其对可用标记数据的利用不足。具体来说,它只利用了原始图像和其压缩版本之间的SMR差异信息。然而,我们实际上可以进一步利用两个压缩变体之间的SMR差异来学习更好的图像表示,以捕捉SMR特性。因此,我们设计了另一个模型Qϕ,使得
其中ϕ是模型的可学习参数。Qϕ的架构和训练目标与基线模型相同,因为这个辅助任务也是一个通过提取好的嵌入来完成的回归任务。训练完成后,这个基于SMR差异的模型Q可以通过以下方式预测Iqi的SMR:

VII. 实验

在本节中,我们进行了广泛的实验来验证我们的SMR模型的有效性和泛化能力。我们使用cls和det作为图像分类和目标检测任务的缩写,模型G和Q作为基线和基于SMR差异的模型的缩写。

A. 实现细节

对于SMR预测模型G和Q,我们使用在ImageNet上预训练的EfficientNet-B4作为E(·),将原始和压缩图像编码成表示,维度为d = 1792。在R(·)中,输入和输出维度分别为(1792×2, 4096),(4096, 4096)和(4096, 1),相邻的FC层之间放置ReLU模块。不同视觉任务的输入图像分辨率与机器对齐,分类任务为224×224像素,目标检测任务为512×512像素。我们使用Adam优化器训练SMR模型,学习率为10^-4。为了避免对图像SMR的潜在影响,我们不使用数据增强。对于目标检测任务,我们发现一些机器在几个原始图像上经过FTconf过滤后无法检测到任何对象。因此,在后续实验中,我们只使用经过Tconf = 0.3过滤后至少有20%的机器至少有一个检测的对象图像。在我们的SMR数据集中,99.96%的图像满足这一标准。值得注意的是,即使将机器比例要求提高到90%,仍有98.55%的图像满足。

B. 评估协议

SMR预测误差直接由测试期间的L1损失给出,即|ΔSMR|。此外,为了评估使用我们的SMR模型提高编码性能的潜力,我们考虑实际应用中的目标,即压缩图像和视频以使它们达到高于可定制阈值TSMR的SMR。实现此目标的直观方法是根据已知的SMR分布选择一个恒定的QP。然而,这种方法并不能为每个图像提供最优结果,因为许多图像可以在不违反SMR目标的情况下容忍更高的QP。因此,我们使用预测的SMR来实现针对一般机器的感知编码,并以以下步骤提高性能:
  1. 我们选择几个SMR阈值形成一个集合TSMR,覆盖广泛的比特率和可达的SMR值。
  2. 对于TSMR中的每个阈值TSMR,参考已知的SMR分布DSMR = {SMRq1, SMRq2, ..., SMRqn},我们搜索满足SMRqb ≥ TSMR的QP qb作为基线。如果没有QP完全匹配,我们选择具有最小|SMRqb − TSMR|的QP。
  3. 我们使用提出的SMR模型预测使用QP = qb, qb+1, qb+2, ..., qn压缩的图像的SMR。预测的SMR记为SMRpred(·)。
  4. 我们反向搜索预测的SMR以找到第一个SMRpred(Iqb+k) ≥ TSMR。相应的qb+k被认为是压缩I0的最优QP。
然后,记录所有SMR阈值下的平均比特率(以每像素比特数bpp计)和实际平均SMR。之后,通过Bjøntegaard Delta rate (BD-rate) [82]评估编码性能改进,这对应于相同SMR下的平均比特率差异百分比,越低越好。在原始图像的SMR在搜索范围内的所有QP都低于TSMR的情况下,qb用于计算由地面真实SMR带来的BD-rate增益,即qb+k = qb。同样,如果预测的SMR在QP搜索范围内都低于TSMR,则qb也用于计算由预测SMR带来的BD-rate增益。此外,我们计算使用地面真实和预测SMR获得的所有TSMR的平均QP qb+k的绝对平均误差|ΔQP|。相应的平均PSNR绝对误差|ΔPSNR|也被记录下来。这些两个指标用于进一步评估SMR预测性能。值得注意的是,在它们的计算中排除了在地面真实SMR期间找不到qb+k的情况。
值得一提的是,SMR预测类似于机器的细粒度图像质量评估任务,尤其是在评估广泛的相邻QP和紧密匹配的比特率时。这比只考虑几个广泛间隔的QP或远距离比特率的粗粒度任务更具挑战性,后者的质量差异更明显,更容易区分。

C. 基本结果

作为演示,我们选择了几种SMR来训练提出的SMR模型。具体来说,对于图像分类,我们训练了两对模型G和Q(总共4个模型)来预测由v1机器库注释的SMR-top1和SMR-top5。对于目标检测,我们训练了三对模型G和Q来预测SMR,其中(TIOU, TS)设置为(0.5, 0.5)、(0.5, 0.75)和(0.6, 0.6)(总共6个模型)。预测其他类型的SMR应该是类似的。图像分类的|ΔSMR|值在表III(第3列)和目标检测的表IV(第4列)中找到,|ΔSMR|在不同QP下的分布如图8所示。对于图像分类,QP和|ΔSMR|之间存在整体正相关,表明在更高的QP下预测误差更高。对于目标检测,这种相关性变得更加非单调,观察到在QP范围[42, 47]中的最低预测性能。原因是目标检测的SMR在高QP下持续较低,这使得当SMR模型检测到从原始和压缩图像中提取的表示之间的显著差异时,预测变得更容易。然而,当QP适度高但不是极端时,特征差异更加模糊,导致SMR预测不够准确。

然后,我们应用第VII-B节中描述的方法来评估使用SMR优化的编码性能,并计算|ΔQP|和|ΔPSNR|。对于SMR-top1,TSMR = [0.6 : 0.05 : 0.95],这意味着值从0.6到0.95,步长为0.05。对于SMR-top5,TSMR = [0.75 : 0.05 : 0.95]加上0.99。对于所有类型的目标检测SMR,TSMR = [0.6 : 0.05 : 0.95]加上0.99。结果的比率-SMR曲线如图9所示,其中“HEVC”是通过恒定QP得到的非优化结果,“GT”是通过应用地面真实SMR得到的优化结果,“Pred G”是通过应用基线模型预测的SMR,“Pred Q”是通过应用基于SMR差异模型预测的SMR。更精确的结果在表III(第3列)和表IV(第4列)中展示。

可以从这些结果中得出几个结论:(1) 使用地面真实SMR来确定适当的QP显著提高了机器的编码性能。对于图像分类,BD-rate节省分别为39.2%和50.6%,对于SMR-top1和SMR-top5。对于目标检测,BD-rate节省分别为23.8%、23.2%和23.2%,对于三对(TIOU, TS)。作为参考,最先进的(SOTA)编码标准VVC比上一代标准HEVC高出约30%[86]。(2) 使用预测的SMR也显著提高了编码效率,尽管由于预测误差没有达到最佳性能,证明了我们的SMR模型的有效性。特别是对于图像分类,BD-rate节省分别约为30%和SMR-top1的43%。这些增益是跨代的,强调了我们机器感知编码方法的潜力。(3) 使用SMR模型预测适当QP的准确性通常是令人满意的,因为|ΔQP|和|ΔPSNR|较低。然而,不同任务和SMR类型的性能有所不同。任务更简单或机器感知一致性的判断标准不那么严格会导致更高的预测精度。例如,图像分类>目标检测,SMR-top5>SMR-top1。(4) 模型Q始终优于G,实现了更低的预测误差和更高的编码增益,显示了其在SMR预测中增强的能力。(5) 通过地面真实/预测SMR实现的最佳/实际编码增益因任务而异。在图像分类中观察到更大的增益,因为更多的图像在重压缩后可以保持高SMR。这允许在优化过程中更频繁地选择更高的QP,从而在满足足够多的机器的同时节省更多的比特。(6) 由于不同的SMR预测性能和分布特性,不同SMR类型的编码增益也有所不同。对于图像分类,SMR-top5比SMR-top1实现了更大的编码增益,原因与(3)/(5)相同,加上更低的|ΔSMR|。对于目标检测,观察到相同的趋势。

D. 在未见机器上的泛化

我们设计SMR模型以学习隐式捕获一般机器感知特性的代表性特征。它们有潜力在更多未见机器上泛化。为了验证这种泛化能力,我们保持在v1机器库上训练的SMR模型,并在v2库上测试它们,其中额外的14台机器对它们来说是未知的。实验结果在表III(第4列)中展示,表明在v2库上具有可比的SMR预测误差和编码增益。重要的是,这些结果在以下实验中也是一致的,稍后将描述。由于两个机器库在地面真实(如第V-D节所示)和预测SMR之间的差异很小,因此提出的SMR模型可以适应许多实际应用,即使在未知机器的情况下。

E. 在未见编解码器上的泛化

理想的SMR模型应在各种应用中使用的不同编解码器上表现良好。为了评估这一点,我们在一系列未见编解码器上评估了提出的SMR模型,包括传统、神经和MVS导向的编解码器。对于传统编解码器,我们选择了VVC和AVS3,因为它们是两个最先进的标准。使用它们的参考软件VTM-20.0[87]和HPM-15.1[88]进行压缩。值得一提的是,VTM-20.0被用作MPEG VCM标准[31]、[89]中的内部编解码器。为了产生更多的差异,我们将VVC的内部比特深度增加到10(相比之下,HEVC和AVS3都使用8位压缩配置)。由于HEVC和这两种编解码器的QP范围不同,我们重新选择了QP为11, 16, 21, 24, 27, 30, 32, 34, 36, 37, ..., 63,以覆盖较大的比特率范围。对于每种编解码器,重新确定对应TSMR在TSMR中的qb。此外,评估还扩展到v2机器库注释的测试数据集上,对SMR预测模型提出了更大的挑战,因为它们仍然在HEVC压缩的v1训练数据集上训练。
在VVC和AVS3压缩的测试数据集上的结果显示:(1) 当应用于未见编解码器时,|ΔSMR|、|ΔQP|和|ΔPSNR|都有所增加,但误差仍在可接受范围内。(2) 模型Q并不总是优于模型G,特别是对于目标检测。(3) 利用地面真实SMR进行最优QP选择仍然为机器(如HEVC)带来了令人印象深刻的编码增益。(4) 使用预测的SMR也一致地提高了不同任务、编解码器和机器库版本的编码性能,证明了提出的SMR模型的良好泛化能力。然而,在未见编解码器上的编码增益相对较为温和,特别是对于VVC,由于其独特的SMR分布。如图10所示,VVC需要更低的bpp来获得高SMR值,类似的比特率可能对应于截然不同的SMR值。因此,VVC上的不准确SMR预测导致在用于提高编码效率时的惩罚比其他编解码器更大。尽管如此,作为两个最先进的传统编解码器,VVC和AVS3显著优于HEVC[86],但我们的SMR模型可以帮助它们进一步为机器节省大量比特。因此,SMR可以作为优化当前使用的编解码器以适应一般机器的实际解决方案,减轻了更换成本高昂且风险高的编解码器的需求。

鉴于神经编解码器的日益兴趣,我们选择了两个代表性的方法[84]、[85]来进一步评估SMR模型的泛化能力,其中[84]是一个众所周知的基线,[85]是最先进的。注意,这些神经编解码器提供的压缩操作点比传统编解码器少得多,具体来说每个只有六个“QPs”。此外,它们的SMR范围也不同,如图10所示。因此,我们调整TSMR选择以适应它们的SMR分布。对于SMR-top1,TSMR = [0.78, 0.82, 0.85, 0.88]。对于SMR-top5,TSMR = [0.94, 0.96, 0.98, 0.99]。对于目标检测,当(TIOU, TS) = (0.5, 0.5)时,TSMR = [0.96, 0.98, 0.99, 1.0],当(TIOU, TS) = (0.5, 0.75)时,TSMR = [0.85, 0.9, 0.95, 0.98],当(TIOU, TS) = (0.6, 0.6)时,TSMR = [0.93, 0.96, 0.98, 0.99]。
表III(第9-12列)和表IV(第7-8列)展示了SMR模型在神经编解码器上的预测性能和编码增益。结果表明,SMR预测性能与在传统编解码器上相当。然而,由于神经编解码器的SMR分布更均匀、操作点数量减少和比率范围更窄,因此使用地面真实SMR实现的最大编码增益受到限制。这些因素也导致使用预测的SMR时编码增益减少。同时,模型G和Q在不同场景下表现出不同程度的有效性。然而,它们在未见过的神经编解码器上仍具有良好的泛化能力,尤其是考虑到传统和神经编解码器之间压缩失真的显著差异。
最后,我们评估了两个最先进的MVS导向编解码器[29]、[90]在图像分类上的SMR模型。由于它们只提供了3和4个QP,这排除了使用SMR引导编码优化的可能性,我们主要报告|ΔSMR|结果。此外,我们计算了皮尔逊线性相关系数(PLCC)和斯皮尔曼等级顺序相关系数(SROCC),以评估预测和地面真实SMR之间的相关性。这些结果然后与三个全参考图像质量评估(IQA)指标进行比较,它们是LPIPS[91]、DISTS[92]和TOPIQ[93]。我们包括这些IQA指标进行比较,因为它们基于深度特征差异的开发,类似于我们的SMR模型,并且SMR本身就是与质量相关的。
这些MVS导向编解码器的SMR分布如图10所示。值得注意的是,它们的SMR远低于其他编解码器,因为它们只针对特定机器进行了优化,证明了我们工作的重要性。尽管如此,提出的SMR模型显示出了可观的泛化能力,如表V所示。尽管模型Q在预测[90]上的SMR-top1时表现相对较弱,但模型G在两个编解码器的所有SMR类型上都取得了稳健的结果。此外,我们的SMR模型在相关性上显著优于所有IQA模型。

基于所有以前的结果,提出的SMR模型在各种未见过的编解码器上都具有良好的实际泛化能力,包括传统、神经以及针对HVS和MVS的编解码器。这一成就是特别值得注意的,因为模型仅在HEVC压缩的数据集上进行训练。我们预计,重新训练模型以适应不同的编解码器可以进一步提高它们的性能。同时,对于任何编解码器,SMR模型在v1和v2机器库之间的性能相似,再次证明了第VII-D节中的结论。

F. 在未见数据集上的泛化

我们评估了SMR模型在两个其他数据集上的能力,即PASCAL VOC[94]的test2007数据集和TVD数据集[95],分别包含13315和1098个对象图像。值得一提的是,(1)大多数VOC的对象类别也包括在COCO中,除了“沙发”,因此这两个数据集上的图像语义略有不同,(2)TVD是MPEG VCM标准[31]的CTC中的测试数据集。为了引入更多变量,我们使用HEVC压缩VOC,使用VVC压缩TVD,并且我们还在v1和v2机器库注释的数据集上单独测试模型。对于VOC,我们将最后一个TSMR从0.99调整到0.97,以符合其SMR分布。图像分类的SMR预测性能和编码增益在表III(最后4列)中展示。根据结果,再次,SMR模型带来了显著的编码增益,模型Q优于G,v1和v2机器库之间的性能相似,所有这些都与在COCO数据集上使用传统编解码器的结果一致。因此,我们的SMR模型在未见数据集上显示出强大的泛化能力。

G. 在帧间编码上的泛化

像帧内编码一样,帧间编码在视频压缩中也是必不可少的,它显著影响最终质量。为了评估SMR模型在帧间编码上的泛化能力,我们遵循MPEG VCM标准[31]的CTC,使用VVC的随机访问(RA)和低延迟(LD)配置压缩SFUHW数据集[96]。该数据集包含1165个视频帧,多个分辨率和13732个对象。对于VVC,使用了第VII-E节中的36个QP进行压缩。由于帧间帧不是独立压缩的,我们不能直接为每个帧选择其SMR的最优QP。因此,我们采用了与第VII-E节中MVS导向编解码器实验相同的评估方法。结果在表VI中展示,其中每个编码配置的前四列是图像分类的结果,最后三列是不同(TIOU, TS)对的目标检测结果。预测性能的SMR模型接近于帧内编码。预测精度在两个机器库之间仍然相似。模型Q在目标检测中显示出较弱的泛化能力,而模型G在所有任务和SMR类型上表现一致。此外,我们的SMR模型在相关性评分上表现出色,超过了所有IQA模型,表明预测和地面真实SMR之间有很强的相关性。因此,我们可以得出结论,提出的SMR模型在帧间编码上也具有良好的泛化能力。未来值得研究如何利用SMR模型优化机器的帧间编码效率。

H. 与最先进的感知VCM方法比较

我们将我们的方法与最先进的感知VCM方法[14]、[44],即可识别失真(JRD)模型进行比较。这些模型实际上找到了机器的第一个JND,如第V-E节所述。在这个实验中,我们手动定位了所有58/98台机器对于图像分类/目标检测的地面真实JRD,以与我们的SMR模型进行比较。我们采用两种策略来定位JRD:JRD Front和JRD Back。对于JRD Front,我们从低到高搜索导致PC变化的最小QP,并将前一个QP记为JRD。对于JRD Back,我们从高到低搜索机器仍然能够保持与原始图像相同的感知的最大QP,并将之记为JRD。然后,我们使用这些QP压缩SMR测试数据集,并记录比特率和SMR。对于SMR模型,我们将TSMR设置为[0.3 : 0.05 : 0.95]和[0.2 : 0.05 : 0.95],以覆盖图像分类和目标检测的可比比特率范围。所有QP都作为SMR和JRD的搜索范围,默认情况下如果找不到符合条件的QP,则使用QP 11。
所得到的rate-SMR曲线如图11所示。结果显示,JRD的SMR值远低于SMR模型,因为它们只针对相应的单一机器优化编码性能,而不是针对一般机器。即使我们引入JRD Front策略,更频繁地使用较低的QP,这应该在大多数情况下导致更高的SMR,由于机器多样性,率-SMR性能仍然较差。另一方面,JRD Back只能在低比特率下实现低SMR,这在现实世界场景中是不切实际的。因此,SMR比JRD更适合于多样化机器的感知VCM。

VIII. 结论

本文提出了一种新的VCM概念,称为满意机器比率(SMR)。SMR通过模拟一般机器感知特性,统计测量压缩图像和视频的质量。针对图像分类和目标检测任务,我们构建了两个包含多达72和98台代表性机器的机器库,以研究一般MVS行为,并创建了一个包含超过2700万张图像的大规模SMR数据集,以促进SMR研究。此外,我们提出了一个基于深度特征差异和SMR之间相关性的SMR模型,可以预测任何压缩图像的SMR。为了利用所有标记数据并提高预测精度,我们提出了另一个基于不同压缩质量图像之间SMR差异的SMR模型。广泛的实验证明了我们提出的SMR模型的有效性,揭示了机器的压缩性能显著提高。重要的是,我们的SMR模型在未见过的机器、编解码器、数据集和帧类型上具有很强的泛化能力。
考虑一般机器而不是单一特定机器的思想和统计方法也可以惠及其他相关研究领域。未来,通过更深入地研究不同机器的感知特性,并利用更先进的AI技术,如注意力机制,可以进一步提高SMR预测性能。此外,探索一个通用模型来同时预测SUR和SMR,可以优化人类和机器的编码效率。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章