TPAMI 2024 | 通过设计简约视频质量模型对视频质量数据集的分析

文摘 2024-10-24 19:00 辽宁

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models

题目：通过设计简约视频质量模型对视频质量数据集的分析

作者：Wei Sun; Wen Wen; Xiongkuo Min; Long Lan; Guangtao Zhai; Kede Ma
源码：https://github.com/sunwei925/MinimalisticVQA.git

摘要

在各种实际视频媒体应用中，盲视频质量评估（BVQA）在监控和改善最终用户的观看体验中发挥着不可或缺的作用。作为实验领域，BVQA模型的改进主要在少数人类评级的视频质量评估（VQA）数据集上进行测量。因此，为了适当评估BVQA中的当前进展，更好地理解现有VQA数据集至关重要。为了实现这一目标，我们通过设计简约的BVQA模型，首次进行了VQA数据集的计算分析。简约的意思是，我们将BVQA模型族限制为仅构建于基本块之上：视频预处理器（用于激烈的时空下采样）、空间质量分析器、可选的时间质量分析器和质量回归器，所有这些都具有尽可能简单的实例化。通过比较不同模型变体在八个具有现实失真的VQA数据集上的质量预测性能，我们发现几乎所有数据集都存在不同程度的简单数据集问题，其中一些甚至承认盲图像质量评估（BIQA）解决方案。我们通过比较这些VQA数据集上的模型泛化能力，并通过消融与基本构建块相关的一系列BVQA设计选择，进一步证明了我们的观点。我们的结果对当前BVQA的进展表示怀疑，同时为构建下一代VQA数据集和模型的良好实践提供了启示。

关键字

盲视频质量评估
数据集
深度神经网络
视频处理

I. 引言

我们无疑生活在一个通过各种视频点播和直播媒体应用接触到大量视频数据的时代。无论在视频制作到消费的视频传输链的哪个阶段，感知视频质量都是人们关注的中心。

视频质量评估（VQA）在各种视频处理系统中发挥着基础性作用，例如从内容制作者一侧过滤极低视觉质量的视频，指导视频压缩和传输算法实现感知最优的速率失真权衡，以及确保在不同空间分辨率、动态范围和色域的各种显示屏上平滑且忠实地渲染。如何进行可靠的主观[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]和客观[9]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24] VQA是信号和图像处理、心理物理学、计算神经科学和机器学习等交叉学科领域广泛研究的两个挑战性问题。

主观VQA包括两个关键步骤：样本选择和主观测试，输出具有感知质量注释的视频数据集，以平均意见得分（MOSs）的形式。在样本选择期间，视觉失真类型和水平主要由感兴趣的视频应用决定。早期的主观VQA[2]、[25]、[26]、[27]侧重于不同视频处理阶段产生的合成视觉失真，包括时空下采样、压缩和传输。最近的主观VQA[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]将注意力转移到视频捕获过程中出现（以及随后通过互联网进行的实际视频处理）的真实视觉失真上。为了鼓励广泛的内容覆盖，Vonikakis等人[28]将样本选择视为一个混合整数线性规划问题，以强制执行不同视频属性（例如，空间和时间信息）上的特定边际分布。这种数据集整形技术激发了后来的研究人员在数据集构建期间仔细处理样本选择[5]、[7]、[9]。关于主观测试方法，国际电信联盟（ITU）已经提出了几项建议[29]、[30]、[31]，涉及实验环境、视频剪辑长度、受试者数量和评级类型。

客观VQA旨在构建计算模型，以准确预测人类对视频质量的感知。当假设参考视频时，可以构建全参考VQA模型[32]、[33]、[34]、[35]、[36]，通过将测试视频与相应的参考视频进行比较，计算测试视频的感知质量。一个更实用但更具挑战性的场景是设计仅依赖于测试视频本身的VQA模型[11]、[14]、[15]、[23]，因此得名无参考VQA或盲VQA（BVQA）。在大多数基于互联网的视频应用中，参考视频实际上无法访问，这使得BVQA成为本文的重点。与盲图像质量评估（BIQA）相比，BVQA更加困难，因为增加了时间维度，这使得视觉失真的计算建模可能在空间和时间上局部化，变得复杂。

作为一个实验领域，BVQA模型的改进一直在少数人类评级的VQA数据集上进行评估。为了探索BVQA当前进展的可靠性，我们需要更好地理解这些VQA数据集。为了实现这一目标，我们对现有的VQA数据集[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]进行了首次计算分析，重点是识别简单数据集问题[37]。我们说一个VQA数据集遭受了简单数据集问题，如果它承认接近BIQA解决方案，或者对当前BVQA模型几乎没有挑战。第一个标准表明VQA数据集中的时间失真（如果有的话）由空间失真主导或与之强烈相关。因此，适当惩罚空间失真的BIQA模型往往会表现良好。这违背了构建VQA数据集的初衷。第二个标准表明VQA数据集暴露了当前BVQA模型的失败案例很少，导致人类标记预算的显著浪费，本可以重新分配给更具挑战性的视频。

我们对VQA数据集的主要计算分析检查了简单数据集问题的首要标准。具体来说，我们设计了一系列简约的BVQA模型，由四个基本构建块组成：视频预处理器、空间质量分析器、可选的时间质量分析器和质量回归器。视频预处理器旨在激烈地下采样输入测试视频的时空维度，产生几个关键视频帧。空间质量分析器充当BIQA模型，为每个关键帧计算空间质量表示。时间质量分析器是可选的，从以每个关键帧为中心的视频块中提取时间质量表示。质量回归器负责计算和池化连接的空间和时间特征中的局部质量分数，以获得测试视频的全局质量分数。四个构建块可以用不同的计算结构实例化，配备不同的质量感知初始化，并进行端到端优化。

我们在八个VQA数据集[3]、[4]、[5]、[6]、[6]、[7]、[8]、[9]、[10]上训练了十个BVQA模型变体，通过最小化MOS和模型预测之间的皮尔逊线性相关系数（PLCC）。提供足够的优化，我们将性能变化归因于基本构建块的实现差异，特别是空间和时间质量分析器。我们计算分析的主要观察结果是，几乎所有数据集都存在不同程度的简单数据集问题。为了进一步支持我们的观点，我们通过测试在最大VQA数据集[9]上训练的模型泛化到其他七个数据集，检查了简单数据集问题的第二个标准。我们另外消融了与基本构建块相关的一系列BVQA设计选择。

总之，我们的贡献包括：一系列简约的BVQA模型，作为强大的基线，并为分析VQA数据集奠定了基础；对八个VQA数据集的计算分析，我们能够根据简单数据集问题的严重程度进行经验排名；从样本选择和主观测试的角度提出构建更有用VQA数据集的建议。

III. 设计简约BVQA模型

在本节中，我们设计了一系列简约的BVQA模型，目标是分析现有的VQA数据集。我们的模型由四个基本构建块组成：视频预处理器、空间质量分析器、可选的时间质量分析器和质量回归器。

A. BVQA问题的表述

我们首先对BVQA问题进行表述。假设视频，其中表示第帧。和分别是每帧的高度和宽度，是总帧数。BVQA模型的目标是计算一个标量，作为真实感知质量的近似：

我们可以方便地将分解为四个基本构建块。第一个是视频预处理器，对进行时空下采样，产生一组个关键帧。每个关键帧可以可选地伴随着一个视频块用于时间质量分析：

其中。第二个是空间质量分析器，它接受一个关键帧作为输入，并提取质量感知的空间特征：

第三个是可选的时间质量分析器，它独立地从以第个关键帧为中心的第个视频块中提取时间特征：

最后一个是质量回归器，它将提取的空间（和时间）质量特征映射到一个全局质量分数：

其中和。

B. 视频预处理器

尽管以4K分辨率和60 fps录制视频很方便，但将这样的原始视频输入到BVQA模型中将引起极高的计算[15]、[21]。这也对BVQA模型的端到端优化提出了巨大挑战。作为简约的一部分，我们执行激烈的时空下采样作为视频预处理。我们首先在时间上将原始视频从降低到 fps：

其中是第个关键帧，受空间下采样，是地板函数，。然后我们使用双线性核将每个关键帧空间下采样到，同时保持纵横比，使得较短边的长度为。

可选地，对于每个关键帧，我们从中以帧间隔采样一个视频块

进行时间质量分析：

其中以视频块为中心。由于时间特征在不同的空间分辨率下相对稳定[55]，我们将调整大小到，分辨率为，其中。为了降低时间特征的重要性，我们可能进一步在提取视频块之前，将关键帧从降低到 fps。在这种情况下，对于被减少的关键帧缺失的视频块可以简单地从计算出的视频块中广播，如图2所示。

C. 空间质量分析器

空间质量分析器接受一个关键帧作为输入，并提取质量感知的空间特征。它在计算上接近BIQA模型，并且许多以前的BVQA模型[9]、[21]直接采用BIQA模型进行空间质量分析。然而，视频中的空间失真影响可能与图像中的不同。例如，快速移动的物体可能在单个帧中显得模糊，但在观看视频时看起来不错。在这种情况下，BIQA模型可能会过度惩罚空间失真，导致感知视频质量的估计不准确。我们通过训练具有不同质量感知初始化的基于DNN的BIQA模型作为空间质量分析器来考虑这些微妙的差异。我们选择了两个流行的主干网络，ResNet-50 [45] 和 Swin Transformer-B [58]，并剥离了它们的分类头。作为简约的一部分，我们不采用高级特征提取策略，例如多阶段特征融合[22]和全局平均值和标准差池化[15]、[21]、[22]，只对最后阶段的特征图应用全局平均池化。

如第II-B节所述，利用质量感知初始化对于基于DNN的BVQA来说是一种常见的做法。对于空间质量分析器，我们探索了初始化1)在ImageNet上预训练，2)在IQA数据集上预训练，和3)在VQA数据集上预训练（例如，在LSVQ上预训练并在LIVE-VQC上测试）。其他初始化（例如，来自无监督学习[59]、[60]、[61]的结果）将在第V-B节中消融。

D. 时间质量分析器

我们允许一个可选的时间质量分析器，并尝试使其设计尽可能简单。独立地从以第个关键帧为中心的第个视频块中提取时间特征，作为短期记忆的形式。作为简约的一部分，不同视频块之间的时间依赖性作为长期记忆未被建模。我们还选择冻结时间质量分析器，使其更像是一个局部运动分析器。我们通过SlowFast网络[55]的时间路径实例化时间质量分析器，该网络在Kinetics-400数据集[62]上预训练。类似于空间特征提取，我们丢弃了原始的分类头，并通过最后阶段特征图的全局平均池化来计算时间特征。

E. 质量回归器

最后一步是将提取的空间（和时间）特征映射到一个单一标量作为全局质量分数。在以前的研究中，像GRU[15]和InceptionTime[9]这样的序列模型被用来捕获关键帧（和相关视频块）之间的有用长期依赖性。作为简约的一部分，我们有意选择一个更简单的全连接（FC）层（作为MLP的一个特例），基于连接的空间和时间特征回归第个局部质量分数：

其中表示可学习的线性投影向量。最后，我们通过简单平均聚合帧级（或块级）质量估计得到视频级质量分数：

F. 损失函数

剩余的部分是为端到端BVQA模型优化指定一个合适的损失函数。通常，BVQA被视为一个回归任务，可以通过平均绝对误差（MAE）和均方误差（MSE）[9]、[13]、[15]、[16]、[19]、[20]来监督，以预测绝对质量（即，MOS）。或者，我们可以通过将BVQA表述为一个学习排序问题来看待相对质量预测。因此，成对排序损失，如Thurstone-Mosteller模型[63]（或Bradley-Terry模型[64]）下的保真度损失和列表排序损失，如置换概率下的交叉熵损失，可微分的Spearman等级相关系数（SRCC）[21]、[24]和PLCC[21]、[23]、[24]是可行的选择。在这里，我们采用PLCC作为优化我们BVQA模型的唯一损失函数。

IV. VQA数据集的计算分析

在本节中，我们首先详细说明实验设置，以比较我们的简约BVQA模型与七种具有不同设计理念的代表性方法。基于实验结果，然后对八个VQA数据集进行计算分析，指出被忽视的简单数据集问题。

A. 实验设置

VQA 数据集：我们在第II-A节中介绍并在表I中总结的八个VQA数据集上评估BVQA模型。这些包括CVD2014 [3]、LIVE-Qualcomm [4]、KoNViD-1k [5]、LIVE-VQC [6]、YouTube-UGC [7]、LIVE-YT-Gaming [10]、LBVD [8] 和 LSVQ [9]。对于LSVQ数据集，我们遵循原始数据集拆分[9]，在该拆分中训练集包括28013个视频，默认测试集和1080p测试集分别包含7220和3561个视频。我们随机抽取训练集的20%的视频进行验证，并在两个测试集上报告结果。对于剩余的七个数据集，我们随机将每个数据集分成训练、验证和测试集，比例为6:2:2，重复10次，并报告中位结果。

竞争方法：我们选择了七种代表性的BVQA模型进行比较，包括三种知识驱动方法，BRISQUE [49]、TLVQM [14] 和 RAPIQUE [51]，以及四种数据驱动方法，VSFA [15]、PatchVQ [9]、Li22 [21] 和 FAST-VQA [23]。BRISQUE是一种流行的基于NSS的BIQA模型，我们计算1 fps的空间特征。TLVQM和RAPIQUE提取一组时空特征进行质量评估。VSFA和Li22依赖于预训练模型来提取时空特征，并仅训练质量回归器。FAST-VQA是一个最先进的BVQA模型，它端到端优化了视频Swin Transformer的一个变体。为了公平比较，我们根据我们的数据集拆分策略重新训练所有竞争模型，并遵循它们原始的优化程序。对于大规模LSVQ和保留的测试集，我们从各自的论文中复制结果。

我们实例化了十个模型，来自我们的简约BVQA模型家族：(I) ResNet-50在ImageNet-1k上预训练作为空间质量分析器，没有时间质量分析器（作为基线模型）；(II) 在四个IQA数据集的组合上预训练(I)；(III) 在LSVQ训练集上预训练(I)；(IV) 向(I)添加时间分析器；(V) 向(II)添加时间分析器；(VI) 向(III)添加时间分析器；(VII)至(X)：分别用Swin Transformer-B替换ResNet-50作为空间质量分析器，在(I)、(III)、(IV)和(VI)中。

评估标准：我们采用两个标准来评估VQA模型的性能：SRCC和PLCC，分别表示预测单调性和预测线性。在计算PLCC之前，我们遵循[69]中的程序，使用单调四次参数逻辑函数将模型预测映射到MOS，以补偿预测非线性。

实现细节：对于视频预处理器，我们以1 fps提取关键帧（例如，对于10秒视频剪辑，K = 10），并将关键帧的短边长度Ls设置为448，对于ResNet-50和384对于Swin Transformer-B，视频块的空间分辨率Lt设置为224。关键帧的时间采样率Ra和视频块的时间采样率Rb分别设置为1和0.5 fps。我们为每个视频块采样T = 32帧，帧间隔τ = 1。我们选择两个主干网络：ResNet-50 [45]和Swin Transformer-B [58]在ImageNet-1k [53]上预训练，作为空间质量分析器，并使用SlowFast网络（ResNet-50）[55]的快速路径在Kinetics-400 [62]上预训练，作为时间质量分析器。

训练是通过优化PLCC使用Adam方法[70]进行的，初始学习率为10^-5，小批量大小为8。在训练阶段，输入帧被随机裁剪到448×448，对于ResNet-50和384×384对于Swin Transformer-B。在验证和测试阶段，输入帧被中心裁剪到与训练阶段相同的空间分辨率。我们在2个周期后对LSVQ降低学习率10倍，在其他数据集上10个周期后降低学习率。根据数据集的大小，最大周期数设置为LSVQ为10，KoNViD-1k、YouTube-UGC和LBVD为30，CVD2014、LIVE-Qualcomm、LIVE-VQC和LIVE-YT-Gaming为50。

B. 主要计算分析

表III显示了我们BVQA模型的SRCC和PLCC结果，重点是相对改进，我们根据这些结果对每个数据集进行计算分析。七个竞争方法作为性能参考。

CVD2014：模型(I)，最接近BIQA解决方案，使用ResNet-50作为空间质量分析器，没有时间质量分析器，能够取得非常非平凡的结果，超过了除FAST-VQA [23]之外的所有竞争模型。我们认为这是CVD2014存在简单数据集问题的强烈指示，因为样本选择策略不佳。事实上，CVD2014中的视频是使用几乎静止的相机捕获的，时间失真最小。同时，场景多样性是手动优化的，这可能不是最优的。我们的观点得到了模型(IV)到(VI)的结果的进一步支持，在这些结果中，通过时间质量分析器整合运动特征几乎没有或根本没有改进。此外，由于CVD2014中视频数量有限，将空间质量分析器从ResNet-50增加到Swin Transformer-B导致过拟合。在VQA预训练初始化下对Swin Transformer-B进行微调的模型(VIII)恢复了一些性能，但仍然不如模型(I)。

LIVE-Qualcomm：尽管模型(I)落后于几个竞争模型，但在从IQA和VQA预训练初始化开始时，它迅速赶上，这表明尽管模型(I)简单，但只要采用的优化技术收敛到好的局部最优解，它就有能力处理LIVE-Qualcomm。此外，通过比较模型(IV)与模型(II)和(III)（和模型(IX)与模型(VIII)），很明显，空间质量分析器的更好初始化（作为优化技术的一部分）比整合时间质量分析器更重要。这有点令人惊讶，因为LIVE-Qualcomm包括作为明确形式的时间失真的稳定问题的视频。一个可能的解释是LIVE-Qualcomm中的时间失真与空间失真强烈相关。我们认为这些结果表明存在简单数据集问题，尽管没有CVD2014那么严重。

与CVD2014的结果不同，Swin Transformer-B作为空间质量分析器的表现优于ResNet-50，并且没有过拟合的迹象。这归因于与CVD2014相比，独特场景的数量增加（从5到54），表明在样本选择期间确保内容和失真多样性是必要的。通过包含所有组件，模型(X)作为我们简约模型家族中最“复杂”的变体，达到了Li22设定的最佳性能，Li22具有长期依赖性建模。

KoNViD-1k：模型(III)和(VIII)比模型(I)和(VII)有明显改进，并明显超过了VSFA、PatchVQ和Li22。这证实了质量感知初始化对于空间质量分析器的重要性。此外，KoNViD-1k采用了基于密度的公平采样策略，以鼓励内容和失真多样性，这使得具有增加容量的空间质量分析器在训练时不会过拟合。然而，KoNViD-1k用于样本选择的时间信息（即，像素级帧差异的帧间标准差的平均值）似乎与时间内容和失真复杂性相关性很差，并且在阻止BIQA解决方案方面作用不大。此外，KoNViD-1k从中采样的原始视频池YFCC100M，主要由以空间失真为主的旧视频组成。这些解释了通过添加运动特征获得的边际性能提升。最后，与LIVE-Qualcomm类似，模型(X)达到了FAST-VQA设定的当代性能水平。

LIVE-VQC：与CVD2014、LIVE-Qualcomm和KoNViD-1k的结果不同，时间质量分析器带来了显著的改进（通过比较多模型(IV)和(IX)与模型(I)和(VII)，分别超过10%）。这主要是因为手动包括了具有不同运动水平的视频，有助于形成复杂的复合时空失真，如抖动（由于相机抖动）、闪烁和抖动。结合质量感知初始化，模型(VI)和(X)在比较各自基线时，性能显著提升。

YouTube-UGC：在YouTube-UGC上模型的行为类似于CVD2014。特别是，两个基线模型，模型(I)和(VI)表现令人满意。通过时间质量分析器获得的增加收益非常有限（与质量感知初始化相比，有时甚至负面），表明YouTube-UGC以空间失真为主，并且表现出简单数据集问题。事实上，选择样本时使用了两个时间特征（即，用于编码P帧的位数和一秒视频块的压缩比特率的标准差），结果证明在识别具有时间失真特征的困难视频方面是不充分的。

LBVD：最重要的观察是时间质量分析器在LBVD上发挥了重要作用，其效果甚至比在LIVE-VQC上更为明显。不管空间质量分析器的变化如何（即，是否采用更复杂的架构，是否从质量感知初始化开始），SRCC结果大致在0.7左右。当整合时间质量分析器时，性能显著提升至约0.88，提升了25.7%。这是因为LBVD由基于HTTP自适应流的直播视频组成，其特点是局部时间失真，如重新缓冲、停滞和抖动。此外，LBVD主要包含低分辨率的正面视频，背景不同，其空间信息远比其他数据集简单。因此，一个简单的空间质量分析器（例如，ResNet-50）足以分析空间质量。

LSVQ：作为迄今为止最大的VQA数据集，LSVQ抵消了IQA预训练初始化的性能提升。同时，LSVQ通常为提高BVQA模型在其他小规模VQA数据集上的性能提供了更有效的初始化。然而，像KoNViD-1k和YouTube-UGC一样，LSVQ以空间失真为主，模型(I)和(VII)在其中取得了有竞争力的结果，削弱了其作为BVQA模型基准的作用。

LSVQ包括一个1080p视频的第二测试集，其分辨率高于训练集和默认测试集中的分辨率。我们发现在LSVQ-1080p上的性能明显下降，主要有两个原因。首先，激进的空间下采样导致丢失了与BVQA相关的细节。作为证据，Li22在空间和时间质量分析器与模型(IV)到(VI)中相同（但固定）的情况下，通过在实际空间分辨率上操作获得了更好的性能。其次，1080p视频通常处于高质量区域，这对BVQA模型来说很难区分它们微妙的相对质量。

LIVE-YT-Gaming：在LIVE-YT-Gaming上的趋势与KoNViD-1k、YouTube-UGC和LSVQ类似。首先，更强大的空间质量分析器在初始化和网络架构方面更有益。值得注意的是，LIVE-YT-Gaming中的视频是由计算机图形技术渲染的。IQA和VQA预训练初始化的性能提升表明，至少在质量评估任务中，游戏和自然视频之间的域差距相对较小。这也解释了之前在游戏VQA中使用NSS的做法。其次，时间质量分析器是次要的，尽管游戏中的对象经常快速移动，场景转换也很频繁（特别是对于第一人称视频游戏）。

综合计算分析结果，我们得出以下结论。首先，我们根据简单数据集问题的严重程度，对八个VQA数据集进行了经验排名（从最不严重到最严重）：(1) LBVD，通过包括有限空间信息的直播视频，在很大程度上依赖于时间质量分析；(2) LIVE-VQC，精心选择具有复杂时间失真的视频；(3) LIVE-Qualcomm，包含某些时间失真，但与空间失真强烈相关（见第IV-C节）；(4) KoNViD-1k、YouTube-UGC、LSVQ和LIVE-YT-Gaming，以空间失真为主，有一定内容多样性约束；(5) CVD2014，以空间失真为主，内容多样性有限。

其次，尽管时间质量分析器在LBVD和LIVE-VQC中不可或缺，但我们的实例化非常简单。我们对一组视频块（相对于关键帧）进行子采样，这些视频块独立地接受预训练网络的局部时间分析。既没有进行端到端微调，也没有实现长期依赖性。这表明在构建更好的VQA数据集方面仍有相当大的空间，这些数据集需要完整的时间质量分析。第三，无论是手动[3]、[4]、[6]、[8]、[10]还是自动[5]、[7]、[9]，鼓励样本多样性对于促进通用BVQA模型的发展是必要的，这一点通过将ResNet-50更换为Swin Transformer-B作为空间质量分析器的结果得到了证实。数据集构建过程中遗漏的部分是同时鼓励样本难度，以更适当地支持（时空）质量分析器，并最终防止接近BIQA解决方案。第四，尽管在现有VQA数据集上追求最高性能不是我们的目标，但模型(X)获得了最好的加权平均结果，权重与每个数据集中的视频数量成比例。这证明了我们简约BVQA模型家族的分解和实现的合理性，用于计算分析。

C. 辅助计算分析

为了支持我们的分析结果，我们继续通过测试在LSVQ上训练的BVQA模型对其他七个数据集的泛化能力，来检查简单数据集问题的第二个标准。竞争模型包括四种BIQA方法，UNIQUE [44]、CLIP-IQA [72]、LIQE [73] 和 StairIQA [74]，以及六种BVQA方法，VSFA、PatchVQ、Li22、FAST-VQA、模型(IV)和模型(IX)。UNIQUE和LIQE都在包括LIVE [75]、CSIQ [76]、KADID-10k [77]、BID [65]、CLIVE [66]和KonIQ-10k [67]在内的六个IQA数据集上训练。CLIP-IQA在KonIQ-10k [67]上微调。StairIQA在包括BID [65]、CLIVE [66]、KonIQ-10k [67]、SPAQ [68]和FLIVE [43]的五个野外IQA数据集上训练。实验结果列于表IV中，从中我们得出了类似的观察结果。首先，在以空间失真为主的大规模LSVQ上训练时，即使配备了时间质量分析器，模型(IV)和(IX)在LBVD和LIVE-Qualcomm上的泛化能力也很差，这两个数据集以时间失真为特征。结合数据集内的结果，我们加强了LIVE-Qualcomm中空间和时间失真高度相关的主张；在数据集内设置中，这种相关性可以被有效利用；然而在跨数据集设置中，模型可能必须捕获时间失真才能在LIVE-Qualcomm上实现泛化，而这种能力不太可能由LSVQ诱导。其次，对于CVD2014、KoNViD-1k和YouTube-UGC，模型(IV)和(IX)的泛化是合理的，更强大的空间质量分析器给出了更好的性能，指出了简单数据集问题的严重性。第三，尽管LIVE-VQC的问题比LBVD更严重，但比KoNViD-1k更不严重，模型(IV)表现略差，模型(IX)表现适中，与数据集内结果很好地一致。第四，尽管LIVE-YT-Gaming被分析为以空间失真为主，但模型的泛化能力比CVD2014、KoNViD-1k和YouTube-UGC弱。我们将其归因于游戏和自然视频之间的域差距，在跨数据集设置中不能忽视。

对于BIQA模型，我们观察到，尽管没有在任何VQA数据集上训练，但它们在评估视频质量方面提供了合理的性能。例如，UNIQUE很好地处理了LIVE-Qualcomm、KoNViD-1k和LIVE-VQC，而StairIQA在YouTube-UGC和LBVD上表现良好。我们将结果归因于三个主要因素。首先，这些BIQA模型在多个IQA数据集上训练，或利用强大的特征提取模块（例如，CLIP）。第二，某些VQA数据集（例如，LIVE-Qualcomm、KoNViD-1k和LIVE-VQC）与训练IQA数据集之间的域差距相对较小，这一点通过使用IQA数据集上的预训练权重作为BVQA的初始化得到了进一步证实。第三，空间质量分析在这些VQA数据集上占主导地位，这与我们主要计算分析中暴露的简单数据集问题一致。

V. 进一步消融研究

在上一节中，我们已经确定了现有VQA数据集中存在的简单数据集问题。在本节中，我们通过全面的消融实验来支持我们的计算分析，调查与基本构建块相关的更多BVQA设计选择。这些包括1)视频预处理器中的空间分辨率和时间下采样率，2)空间质量分析器中的主干、初始化和特征表示，以及3)质量回归器中的特征聚合和分数池化。我们还消融了作为优化关键部分的损失函数。除非另有说明，否则我们报告模型(I)在LSVQ上的结果。

A. 视频预处理器

关键帧的空间分辨率：我们的视频预处理器中的空间分辨率决定了我们选择对每个关键帧进行多激进的下采样。在我们的默认设置中，对于ResNet-50，Ls = 448，对于Swin Transformer-B，Ls = 384。这里我们尝试其他选择：{224, 384, 448, 512}，结果如图3(a)和(b)所示。我们发现不同空间分辨率的性能相当稳定，表明当前VQA数据集中呈现的空间失真对空间下采样不敏感。尽管通过比较Li22[21]到模型(IV)到(VI)的操作在实际分辨率上可能更有利（通过比较Li22[21]到模型(IV)到(VI)），但这在端到端训练的情况下在计算上是禁止的。

关键帧的时间采样率：自然视频在时间维度上高度冗余。我们将时间采样率降低到Ra = 1 fps，从中我们提取质量感知的空间特征。这里，我们探索了一组替代选择：{0.5, 1, 2}，结果如图3(c)和(d)所示。当时间采样率极低（例如，0.5 fps）时，性能显著下降。将时间采样率从1提高到2 fps对质量预测几乎没有影响，但计算量翻了一番。总体而言，Ra = 1是BVQA模型在现有VQA数据集上表现良好的合适选择。

视频块的时间采样率：我们探索了视频块的时间采样率Rb的影响。具体来说，我们在模型(IV)下采样Rb为{1/3, 1/2, 1}，结果列于图4中。我们观察到，将Rb设置为略低的值几乎不会引起性能变化。总的来说，Ra和Rb对时间内容和失真复杂性进行了粗略但方便的描述。一个好的VQA数据集不应该允许我们的简约BVQA模型家族使用的Ra和Rb设置得太低，例如那些在我们的计算分析中使用的设置。

B. 空间质量分析器

主干网络：我们测试了四个主干网络，每个都有两个尺度，以探索不同网络架构和模型尺度对BVQA的影响。首先是ResNet-50 [45]、ViT-Tiny [54]、ConvNeXt-Tiny [48]和Swin Transformer-Tiny [58]，它们的FLOPS约为4.5×10^9。其次是ResNet-200、ViT-Base、ConvNeXt-Base和Swin Transformer-Base，它们的FLOPS约为15.0×10^9。关键帧的空间分辨率设置为Ls = 224，其他配置与模型(I)相同。结果列于表V中，从中我们得出两个有用的观察。首先，除了ResNets之外，随着主干网络FLOPS的增加，性能提高了平均2.2%。ResNet-200比ResNet-50给出了略差的结果，表明对于BVQA任务来说，扩展ResNets更具挑战性。其次，更先进的主干网络，如Swin Transformers，的性能优于具有标准卷积的DNN（例如，ConvNeXt）。

初始化：我们已经研究了质量感知初始化对BVQA的有效性。这里，我们进一步探索了其他可能性：1) 来自在更大的计算机视觉数据集（例如，ImageNet-22k）上的预训练的初始化，以及2) 来自无监督预训练的初始化，包括MoCo [59]、MAE [60]和CLIP [61]。具体来说，我们使用MoCoV2和CLIP提供的权重初始化ResNet-50，使用MAE和CLIP提供的权重初始化ViT-B，使用ImageNet-22k初始化Swin Transformer-B。关键帧的空间分辨率设置为224，而其他配置与模型(I)相同。

结果列于表VI中，从中我们有了几个有趣的观察。首先，从ImageNet-1k切换到ImageNet-22k可以带来约1%的改进。第二，我们惊讶地发现，作为对比学习方法的一种，MoCoV2提高了BVQA，与其在ImageNet-1k上预训练的对应物相比。MoCoV2试图识别通过一袋数据增强方法从一张图片派生的不同的正样本对，其中一些是质量不保留的（例如，颜色抖动和灰度转换）。我们推测这些增强作为视觉失真在LSVQ中并不常见，因此可能不会像在质量预测性能上所测量的那样损害性能。MAE试图重建被遮盖的图像块作为一种鼓励高级失真不知情特征的方法，因此对BVQA任务并不有利。CLIP作为一种视觉-语言预训练方法，一致地提高了BVQA，这与最近的研究[72]、[78]、[79]很好地一致，这些研究表明，可以在不进行微调的情况下利用CLIP特征进行BVQA。

特征提取策略：最后阶段特征图的全局平均池化是BVQA中最常见的特征提取策略。然而，还有其他选项，例如1) 全局平均值和标准差池化[15]，以处理非均匀的空间失真，以及2) 多阶段特征融合以丰富特征表达能力。在这里，我们进一步探索了这两种更复杂的特征提取策略的组合，结果列于表VII中。与以前的研究[15]、[21]不同，我们没有观察到与最后阶段特征图的全局平均池化相比有显著改进。我们认为，这是由于端到端训练，它鼓励更好地学习质量感知特征，而不需要额外的特征工程。

C. 质量回归器

时间特征聚合：在我们的简约BVQA模型家族中，我们采用FC层来回归局部质量分数。我们也可以采用像GRU[80]和Transformer[81]这样的序列模型来捕获关键帧或视频块之间的长期依赖性。在模型(I)下，我们探索了这些模型的替代选择：FC、GRU和Transformer。结果列于表VIII中，从中我们观察到FC优于GRU。Transformer实现了最佳性能，但与FC相比改进幅度很小，表明LSVQ中的长期依赖性相对较弱。

时间池化：时间池化将帧级或块级质量分数合并为视频级质量分数。代表性策略包括简单平均池化、最差质量池化[82]、时间变化池化[83]和时间滞后池化[15]、[84]。考虑到只有可微池化方法可以集成到端到端优化中，我们在模型(I)下采用了三种池化策略：简单平均池化、时间滞后池化和使用1D卷积层（核大小为5）的学习池化。结果列于表IX中，我们发现时间滞后池化和学习池化并不比简单平均池化更好。这表明包含在LSVQ中的视频不能给具有显式时间建模的BVQA方法加分。

D. 损失函数

BVQA通常被表述为一个回归问题，优化MAE或MSE作为损失函数。在这里，我们将MAE和MSE与默认的PLCC进行比较。我们还包括了SRCC的不同版本[21]在表X中。结果清楚地表明PLCC表现最佳，尤其是在LSVQ-1080p上，这证明了它在优化我们简约BVQA模型家族中的使用。然而，针对PLCC优化的BVQA模型存在尺度歧义问题，这意味着如果通过正标量α将模型预测缩放到，结果将保持不变。因此，与使用PLCC进行评估一样[69]，为了获得更具解释性的预测，可以使用将模型预测映射到MOS的单调逻辑函数。

总结来说，通过在LSVQ上消融更多的BVQA设计选择，我们得出了支持主要计算分析的类似观察结果：BVQA性能得益于更先进的空间质量分析，而不是时间质量分析。

VI. 讨论

为了可靠地衡量BVQA的进展并开发更好的BVQA方法，至关重要的是要构建下一代VQA数据集，以克服简单数据集问题。在这里，我们建议重新审视主观VQA中的两个关键步骤：样本选择和主观测试。

从样本选择的角度来看，选定的视频应该在内容和失真类型上具有多样性，在使现有BVQA模型产生误判的难度上具有挑战性。为了促进多样性，Vonikakis等人[28]描述了一个数学上合理的优雅计算过程。棘手的部分在于视频属性的规范，这些属性应该能够高效计算并且与感知相关（特别是那些与时间变化视频质量相关的属性）。为了促进难度，Wang等人[85]、[86]提出了利用组最大差异化（gMAD）竞争[87]，让一组BIQA方法在大规模未标记图像数据集上相互竞争。以类似的方式，我们可能选择一组BVQA模型（包括我们的简约BVQA模型家族中的成员）参与大规模未标记视频数据集上的gMAD竞争。由此产生的视频子集在使竞争BVQA模型产生误判方面具有很大的潜力。

或者，我们可以借鉴主动学习文献中的思想，并共同训练一个辅助故障预测模块[37]（与主BVQA模型一起），以预测样本难度。一般来说，样本选择是一个NP难问题[88]，除非多样性和难度度量具有可以利用的特殊结构。

从主观测试的角度来看，我们可能不依赖于绝对类别评级，它给出了一个单一的标量来指示感知视频质量，而是可以采用单刺激连续质量评级[31]，在这种评级中，测试视频随着时间的推移连续评级，从而产生随时间变化的质量曲线。这种质量注释迫使BVQA模型直接分析时间质量，作为防止接近BIQA解决方案的一种手段。然而，连续质量评级在评级效率和可靠性方面有众所周知的缺点。按照这条思路，我们可以制定不同的BVQA问题变体，强调时间质量评估：1）定位空间和时间中质量和最差质量区域，2）两个非重叠视频块之间的两种选择性强迫选择，两者之间的感知质量更好。

VII. 结论

我们通过对八个VQA数据集进行计算分析，并设计简约的BVQA模型，这些模型执行激进的时空下采样作为预处理，并依赖尽可能少的时间质量分析和聚合。尽管我们模型的简约性，但与现有的BVQA方法相比，它们在质量预测性能上取得了非常有竞争力的结果。我们不将结果视为BVQA的进步，而是作为现有VQA数据集的基本问题——简单数据集问题。我们根据简单数据集问题的严重程度对八个VQA数据集进行了经验排名，这一点通过跨数据集评估和消融实验得到了支持。我们希望我们的计算研究能够为如何构建下一代VQA数据集和模型提供启示，形成一个闭环。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247493903&idx=1&sn=bd6a1679ad5e670f2c374d923209d2f2

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文